2024 年の初めに、テクノロジー界で SORA の出現ほどエキサイティングなものはありません。 2023年初頭にChatGPTがもたらしたLLM起業ブームと同様に、Soraのリリースもビデオ生成モデルを最前線に押し上げました。 テクノロジー大手は自社製品を積極的に売り込んでおり、スタートアップ企業もその波に乗っている。 3月13日、AIビデオモデル企業である愛石科技は、A1ラウンドの資金調達で1億人民元を完了しました。 3月12日、盛樹科技はAラウンドの資金調達で1億人民元を調達した。 3月1日、AIビデオ生成SaaSサービスプロバイダー「Boolean Vector」は、約1,000万人民元(約1,000万人民元)の資金調達を完了しました。 Sora は初めて DiT アーキテクチャを実装し、これまで独立していた拡散モデルとビッグモデルを統合し、ビデオ生成モデルの歴史に新たな章を開きました。 新たなテクノロジーの嵐が来ることは間違いありません。一夜にして、中国では大小さまざまな動画生成モデルが「中国版SORA」という称号を競い合いました。 この疑問の答えを探るために、「Zi Quadrant」は既存の国内ビデオ生成製品を実際に体験し、公開情報、第三者テスト機関のデータ、その他の側面を組み合わせて、現在主流のビデオ生成モデルを総合的に評価しました。 製品設計、実際のテスト結果、業界分析の3つの視点から、誰が「中国版Sora」になれるのかを総合的に探ります。 1. DIT のイノベーションを再現できるのは誰か?SORA のトレンドは海を越えて中国に到来したばかりだが、ビデオ生成は新しい話題ではない。 これに先立ち、このトラックはRunwayのGen-2、Pika1.0、Google VideoPoetなど、いくつかの革命の波を経て、最終的に、より優れた生成効果、より長い時間、より強力なロジック、より大きな安定性を備えた「Sora」の瞬間に到達しました。 「自己象限」は、国内のビデオ大手モデル企業と製品の基本状況を整理します。 ▲図:国内外の動画制作大手モデル企業一覧、訪問数は2024年2月時点集計 海外では、グーグルやマイクロソフトなどの「シリコンバレーの老舗企業」が、早くからマルチモーダル動画生成の研究に取り組んできた。昨年、Googleはマルチモーダル大規模モデルGeminiとビデオ大規模モデルVideoPoetをリリースし、直感的な効果レベルからマルチモーダルビデオ生成の可能性を見ることができました。 中国では、マルチモーダル技術の方向性にさらなる可能性を感じています。深い技術的蓄積を持つ大企業である百度、大型モデルのユニコーン企業である知普、そしてマルチモーダルな大型モデルを目指す盛舒科技や知祥未来のような新興企業があります。 拡散モデルルートは文生ビデオの主流ルートであり、効果の生成を確実にする上で重要な役割を果たします。したがって、驚くべき Sora でさえ、完全なオーバーホールではなく、基礎となるアーキテクチャの変更のみが行われました。 この道路は国内外で最も混雑しています。 1 つ目は、普及モデルを構築してオープンソース化した Stability AI 社です。次に、突き進む Runway 社と Pika 社、そして OpenAI 社、Meta 社、NVIDIA 社といった大手企業が続きます。 中国では、テンセント、アリババ、バイトダンスの3大企業が初期段階でビデオ生成分野の研究をほぼ独占しており、時折デモを披露して人々を驚かせていました。しかし、現実の製品に関しては、スタートアップ企業が明らかに一歩先を進んでいます。例えば、Aishi Technology、Morph studio、Right Brain Technologyなどの企業はすでにユーザー向けに公開し始めています。 DiT は「Sora ルート」とも呼ばれ、Diffusion Transformer の略です。その本質は、大規模モデルのトレーニング方法とメカニズムを拡散モデルに統合することです。 Sora 技術レポートで提示された結果から判断すると、多大な努力により世界物理シミュレーターの効果を生み出す可能性があります。 現在、Sora の基盤となるアーキテクチャは徹底的に調査されており、トレーニング コンポーネントとテクノロジはオープン ソース化されていますが、これは近い将来、誰もが Sora を使用できるようになることを意味するものではありません。テクノロジー、データ、コンピューティング能力、トレーニングの規模はすべてハードルです。 最近、Sora コアチームの責任者はインタビューで次のように明らかにしました。「Sora はまだフィードバック収集段階にあり、製品化されておらず、短期的には一般に公開される予定はありません。」 技術の観点から見ると、中国のAiShi Technologyは、最初からDiTルートを堅持してきた数少ない企業の一つです。同社の創設者である王長湖氏は公開インタビューで、Soraの登場は、ビデオ用の大規模なモデルを生成するというAiShiの方向性の正しさを証明したと語った。このため、AiShi Technologyは「3〜6か月以内にSoraを追い抜く」という目標を設定し、追いつくチャンスをつかみました。 2. 製品テストとユーザーの「ランニングスコア」映像生成モデルの分野において、国内のスタートアップは大きく分けて2つのカテゴリーに分けられます。 1 つのカテゴリは、PixVerse、PixWeaver、Morph Studio、Pixeling に代表される自社開発の基本的な大規模モデルであり、一般的なシナリオ向けのビデオ生成ツールに重点を置いています。 その他のカテゴリには、Vega AI、Li Bai AI Lab (promeai)、6PenArt、boolv.video、MewXAI が含まれます。このカテゴリは数が多く、より製品指向で、特定のシナリオにおける問題の解決に重点を置いており、AIGC のオンライン編集プラットフォームに似ています。 当社のテストと評価は、使用しきい値、基本的な製品機能、コンテンツ生成機能の 3 つの部分で構成されています。 1 つ目は使用しきい値です。私たちがテストした 8 つの製品はすべて Web サイトの使用をサポートしており (多くのスタートアップ製品は Discord 経由でのみ使用可能)、すべて無料で試すことができます。 ただし、AiShi Technology の PixVerse のみ、無料トライアルの回数に制限がありません。その他の製品には、3〜5回の試用制限があります。トライアル回数を超えた後は、会員登録またはエネルギーチャージが必要となり、価格は数元から数百元までとなります。 PixVerseを除き、他の製品は基本的に支払い前に機能制限があります。たとえば、Yiying AI と Pixeling は 2 秒と 4 秒のビデオしか生成できず、それより長いビデオには料金がかかります。 したがって、使用しきい値を総合的に考慮すると、PixVerse の方がユーザーフレンドリーであり、この分野では相対的な優位性があります。その他の製品は、使用しきい値に関しては比較的平均的です。 具体的な状況は以下のとおりです。 2つ目は、製品の基本機能です。 Promeal と 6PenArt を除き、テストした 8 つの製品はすべて、テキストと画像の両方からビデオを生成する機能を備えています。ただし、Promeal と 6PenArt には、写真からビデオを生成する機能しかなく、テキストから生成する機能はありません。 この2社以外にも、比較的成熟したメーカーはありますが、製品機能の違いはかなり大きいです。 その中でも、AiShi TechnologyのPixVerseは、基本機能に加えて豊富な補助機能を追加しています。たとえば、肯定的なプロンプト語に加えて、ユーザーは否定的なプロンプト語を入力して、生成された画像に特定の要素が表示されないようにすることもできます。 写真からビデオを生成する場合、ユーザーはプロンプトワードを書き込んで出力効果を制御することもできます。ビデオスタイルを選択したり、アスペクト比を調整したりできます。 類似製品の中で、Pixeling だけがネガティブプロンプト、画像生成ビデオプロンプト、ビデオ比率調整機能を備えており、Yiying AI だけがビデオスタイルと画像比率を調整できます。 ビッグモデルの技術レベルによってビデオ生成の品質が決まり、製品の機能によってビッグモデルが適切に活用され、アプリケーションシナリオと組み合わせられるかどうかが決まります。 ビデオ生成製品の場合、機能の豊富さによって、ユーザーが使い始める際の容易さ、ビデオ生成を制御する能力が決まり、最終的には出力結果とユーザー エクスペリエンスに影響します。 したがって、製品の完成度と機能の完全性という点では、PixVerse が総合的にトップに立ち、Zhixiang Future の Pixeling が 2 位、Yiying AI が 3 位、Vega AI が 4 位となっています。その中でも、ブールベクトルは比較的例外的です。越境電子商取引に焦点を当てたビデオ生成ツールとして、特定のシナリオではより完全で使いやすいですが、ビデオ生成に関しては比較的競争力がありません。 もちろん、基本的な機能に加えて、核となるのはやはりビデオ生成効果です。 3番目の部分はビデオコンテンツ生成能力のテストです。 1 つ目は、ビデオ生成期間です。 SORAは現在60秒の動画を生成できるが、国内スタートアップの大型動画生成モデルは2秒から4秒程度の長さに集中しているため、その差は特に大きくない。 2つ目は、プロンプトワードの内容に基づいて表現する能力です。 ソラがリリースされたとき、次のようなビデオが出力されました。プロンプトは「美しい、東京の雪に覆われた街は賑わっています。」でした。何人かの人々が美しい雪の日を楽しみ、近くの屋台で買い物をしていました。風に舞う美しい桜の花びらと雪の結晶。 1 つ目は、AiShi Technology の PixVerse です。 4sの内容は、基本的にプロンプト語で言及されたすべてのキーワードを復元し、同時に「賑わい」と「屋台」の雰囲気を反映しています。カメラは画面に沿ってゆっくりと前進し、ビデオ全体のスタイルは一貫しています。建物、照明、街路樹、歩行者などは比較的リアルで、画像が明らかに静止しているようなことはありません。登場人物の歩き方が少し不自然である点を除けば、要素の歪みはありません。 2つ目はRightBrain TechnologyのVegaAIです。 同じく4秒のコンテンツ、これも1ショットのみ、混雑した通りに沿ってゆっくりと進んでいきます。しかし、照明が点灯し始めた夕方のシーンを設定する PixVerse とは異なり、VegaAI は昼間を選択します。 Aishi TechnologyのPixVerseと比較すると、VegaAIのキャラクターの足音の乱れはより深刻です。一部のキャラクターは、歩いているときに 2 フィートから 3 フィートに変化し、その後消えます。さらに、一部のキャラクターの生成も非常に曖昧で、常に変化する人物は 1 人だけです。 それから、Yiying AI があります。 特定のレンズの動きを持つPixVerseやVegaAIとは異なり、Yiying AIによって生成されたビデオレンズは固定されており、これらのビデオの中で正面の視点を選択するのはYiying AIだけです。 しかし、正面視点を選択すると、Yiying AI に問題が生じます。つまり、キャラクターの表情をうまく処理できないということです。動画の中で互いに向かって歩いている二人の顔は安定していない。また、Yiying AI にもキャラクターの動きの問題はありますが、生成されたビデオは 2 秒しかないため、目立ちません。 4番目は、Zhixiang TechnologyのPixelingです。 4秒のビデオでは固定レンズが使用され、キャラクターが前進します。同様のシーンでは、キャラクターの生成と動きに関して同じ問題があるだけでなく、Pixeling の意味論の理解が明らかに浅くなっています。 例えば、プロンプトにある「賑わい」という言葉は、これまでの動画では明かりや路上のお店、人混みなどで表現されていましたが、Pixeling では人が少ない雨の日の路地を選びました。全体的に見ると、かなり寂しい感じがします。なお、プロンプトワードの「買い物」という単語は動画には反映されていません。 最後に、Morph Studio があります。 公式ウェブサイトはまだ公開テスト用にオープンしておらず、「Self-Quadrant」は Discord を通じてテストされています。 Morph Studio には興味深い点が 2 つあります。 1つは、英語のプロンプト語の生成効果が中国語のプロンプト語の生成効果よりもはるかに優れていることです。 「Zi Quadrant」は最初に中国語のプロンプトを使用してビデオを生成しましたが、得られた結果はプロンプトとはまったく無関係でした。その後、「Zi Quadrant」はプロンプトを英語に変更し、出力効果が劇的に向上しました。 ▲画像: Discord スクリーンショット 動画コンテンツの観点から見ると、Morph Studio の動画生成はわずか 3 秒で、他の製品よりも短く、鮮明度も他の製品よりも低くなりますが、全体的な画像コンテンツはよりリアルです。細部から見ると、Morph Studio で生成されたビデオには、細部がぼやけて歪んでいる、キャラクターが「ドリフト」している、現れたり消えたりするなどの問題がまだ残っています。 Wensheng Video に加えて、「Picture Video」のみをサポートするプレーヤーは Shencai Promeal と 6PenArt の 2 つが残っています。しかし、この2人は生のビデオでは良いパフォーマンスを見せませんでした。 その中で、Shencai Promeal は、単一の画像から「動画像」を生成することのみをサポートしており、プロンプトワード機能はありません。そのため、生成されたビデオ内の文字は歪んでしまい、実用価値がありません。 それに比べて、6PenArt は AIGC コンテンツ コミュニティに似ており、画像生成とビデオ生成はその機能の 1 つにすぎません。ただし、6PenArt はプロンプトワードによるビデオの直接生成をサポートしていません。代わりに、まずプラットフォーム上のプロンプトワードを通じて画像を生成し、次にその画像をビデオに変換する必要があります。 「Self-quadrant」は、「花をくわえて散歩するコーギー」というプロンプト文から 4 枚の絵を生成しました。 ▲画像: 6PenArt スクリーンショット そして、これら 4 枚の写真に基づいて、「春に走る子犬」というプロンプトの付いたビデオが生成されました。 ご覧のとおり、このビデオはまだ「動画像」の状態であり、ビデオとは程遠いものです。 これに加えて、ブールベクトルはこの比較には含まれていません。 製品体験からすると、Boolv.video の Boolean Vector は AI エディターのコンセプトに近いからです。プロンプトワードを入力すると、システムが自動的にプロンプトワードを複数のスクリプトとストーリーボードに分解し、コピーを書き出して複数のビデオを個別に出力します。ビデオを生成した後、ユーザーは各ストーリーボードを編集したり、ビデオを置き換えたり、ナレーションやサウンドを変更したりできます。 ▲画像: boolv.video のスクリーンショット しかし、boolv.video のビデオ生成機能は実際には非常に限られています。深い意味を理解することも、プロンプトの単語に正確に対応するビデオ コンテンツを生成することもできません。 上記でテストした製品の中で、厳密に言えば、PixVerse と Morph Studio だけがビデオ生成に重点を置いた大規模なモデルです。その他の製品は、テキストから画像、画像から画像への初期の AIGC アプリケーションから進化したものです。 ▲画像:製品がビデオ生成に重点を置いているかどうかをテスト 振り返ってみると、複数のテストに基づいて上記の製品をまとめました。 プロンプト語の理解力、画像の論理的表現力、画像の詳細の表現、ビデオ生成の品質、画像の一貫性、安定性、流暢さなど。 8 つの製品をテストし、総合的に比較した結果、AiShi Technology の PixVerse と Morph Studio は総合的に比較的優れた機能を備えており、Right Brain Technology の VegaAI が 2 位、YiYing AI が 3 位、Pixeling が 4 位となりました。 最後に、全体的な評価から、使用閾値から製品機能、コンテンツ生成能力まで、中国のスタートアップのさまざまな製品にはそれぞれ独自の利点があります。しかし全体的に見ると、中国のスタートアップ企業の中では、AiShi Technology の PixVerse が全体的な機能でわずかに優れており、中国で最も Sora に似た製品です。次はMorph Studioです。これら 2 つは、中国のビデオ生成モデルの第一層を構成します。 次は第2層に位置するVegaAI、Yiying AI、Pixeling (Shengshu Technologyは製品が停止されたため評価に含まれませんでした) 、そして最後に第3層に位置するPromeai、6PenArt、boolv.videoです。 自己象限評価の概要は次のとおりです。 3. 生産性向上ツールを使用してデータフライホイールを作成する実際、これまでの国内テクノロジー大手とスタートアップの製品発売を比較すると、大企業の発売は遅いのに対し、スタートアップの製品とユーザー規模の成長は速いことがわかります。 ロビン・リーはかつてこう言いました。「大企業は小さな革新を起こし、小さな企業は大きな変化を起こすことができる。」 熾烈な競争を本当に突破したいのであれば、現時点では、技術ルートの選択や製品自体の性能に加え、製品の使用シナリオ、ユーザーエクスペリエンス、業界アプリケーションなどの総合的な側面が、依然としてビデオ生成モデルの競争の鍵となっています。 製品の使用シナリオに関しては、前述のように、あるタイプの企業は新しいツールの開発に重点を置いているのに対し、他のタイプの企業は特定の成熟した製品にテクノロジーを組み込んでいます。これらはまったく異なる2つのルートです。 ツール型製品の場合、生産性ツールとなり得るかどうかが製品力の核心となります。 Midjourney の開発の歴史を簡単に見てみましょう。Midjourney V5 は Wenshengtu の歴史における重要な転換点であることがわかります。効果、精度、速度などの観点から見ても、V5 は正式に「おもちゃ」から生産性ツールへと変化しました。この製品機能の飛躍的進歩により、大規模なユーザー流入がもたらされ、データのフライホイールが回転し始め、その効果は日々変化しています。 ▲図:ネットユーザーによるV1-V6の生成効果の比較、出典:X 「V5モーメント」と比較すると、ビデオ生成モデルも特異点に到達しようとしていることがわかります。 実際の評価を通じて、PixVerse によって生成されたビデオは、被写体の一貫性、動きの滑らかさ、動きの振幅、鮮明さの点でより価値があることがわかりました。 生産性ツールを前提として、2つの製品ルートもあります。 1 つは Adobe が実践しているプロフェッショナル ツール ルートで、これによりプロフェッショナルはさらにプロフェッショナルになります。もう 1 つは Word のようなもので、一般の人々が生産性を高めることができます。 この問題に関して、ピカの創設者である郭文静氏はインタビューで、ピカは映画制作ツールではなく、日常的に消費するために設計された製品であると述べた。 PixVerse のアイデアはより明確です。 Pika の段階的なサブスクリプション ビジネス モデルと比較すると、PixVerse は引き続き無料で世界に公開されており、そのユーザー ベースとビデオ効果は世界のトップ クラスにあります。これは、現時点では他のビデオ生成製品では実現できないことです。 PixVerse のフライホイールが回り始めたのは、まさにそのユーザーフレンドリーな姿勢と優れたビデオ生成効果のおかげです。サードパーティのデータ監視プラットフォームによると、PixVerseのユーザー規模は現在Pikaと同レベルであり、そのトラフィックは中国の他の主流のビデオ生成製品をはるかに上回っています。 (データソース: similarweb.com) ▲2024年2月のPixVerse、Pika、Runwayの商品ページの比較 ▲2月の国内主要文化・映像商品データ比較 ▲国内主要文化映像商品のデータ動向 調査を通じて、愛石テクノロジーは国内外でさまざまな AI コンテストを積極的に後援/主催しており、テクノロジーの迅速な実装を促進するだけでなく、テクノロジーのアクセシビリティの実現も加速していることがわかりました。この過程で、PixVerse 製品の利点を実感するユーザーがますます増えてきました。 さらに、AiShi Technology には優れたユーザー エコシステムがあります。 PixVerseを使用して作成された多数のビデオコンテンツが毎日Xに掲載されており、英語、中国語、日本語、スペイン語など複数の地域をカバーしています。これは他の国内ブランドには全くない利点であり、ある程度市場の選択を反映したものでもある。 「PixVerse の第一の利点は、無料、無料、そして無料だということです。第二の利点は、操作が簡単で効果的であるということです。プロンプトを何も書かずに写真を入れるだけで、PixVerse が写真の動きを自分で決めてくれるので、満足のいく結果が得られることが多いです。PixVerse がより大きな動きと、より長く安定したビデオを実現してくれることを願っています。」 2024 MIT AI フィルム ハッカソン 最優秀映画ノミネート賞受賞者からのフィードバック。 Zi Quadrant は、無料だからといって商用化を諦めるわけではなく、製品改良の初期段階では、この方法によって実際のユーザー体験とユーザーが生成した高品質のビデオ データを取得し、それをビデオ生成モデルにフィードバックすることで、反復処理を高速化し、データ トレーニングのフライホイールを形成すると考えています。 IV.結論全体的に見ると、中国のビデオ生成モデル全体の技術はまだ海外を模倣しているが、愛石科技を筆頭とするスタートアップ企業は独自の開発リズムとモデルを見つけ、製品設計、ユーザー規模、運用戦略などの総合力で追い上げている。 一方、Soraはまだオープンしておらず、多数のユーザーが同時にオンラインになることに耐えられるかどうかは不明です。毎回正確かつ一貫した 1 分間のビデオ生成を実現できるかどうかはまだテストされていません。 したがって、Sora の中国語版を探す必要はありません。愛世科技に代表される中国のビデオ大型モデル企業は、すでに新たな独立した上昇曲線に乗り出している。 著者: 羅吉、蘇毅 出典:WeChatパブリックアカウント:Zixiangxian(ID:zixiangxian) |
<<: 中国海外短編ドラマアプリランキングの裏側:「ボス」たちは儲けていたのか?
>>: 噂は飛び交っていますが、ネットセレブのデザートの元祖は本当に廃れてしまうのでしょうか?
Amazon Middle East Station は、Amazon FBA とセルフ配送の MF...
コミュニティ運営に携わる人々は、自分が担当するグループが日々活動し、会社から割り当てられたタスクを完...
Shopee を利用する新しい販売者は、店舗に悪影響を及ぼす可能性のある不適切な行為を避けるために、...
Douyinの田舎暮らしの記録から、Xiaohongshuの素顔の共有まで、生活本来の質感を備えた...
ライブストリーミング電子商取引業界は継続的に進化しており、市場は競争の後半に突入しました。トップアン...
1,000元で購入し、80万元を回収するのを待つというのは、投資としては甘い夢のように聞こえます。こ...
今日のコンテンツ コミュニティでは、広告は多岐にわたり、電子商取引の広告、オンライン ローン、モバイ...
Amazon プラットフォームでストアを開設する場合、販売者には要件があり、カテゴリや製品ごとに要件...
本記事では、ユーザーリサーチの深い価値と実践的な道を探り、戦略的ユーザーリサーチの意味合いと発展を深...
起業への道では、あらゆるアイデアの衝突が花火のように咲き誇り、前進する道を照らします。そして、本当の...
この記事は、広告投資とブランド成長の複雑な関係を探り、対人コミュニケーションを効果的に引き起こす方法...
私の友人のほとんどは国内の電子商取引プラットフォームで買い物をしていますが、実際には越境プラットフォ...
共同イベントが大成功を収め、多くの人気を得た後、茅台酒は協力を中止した。この選択をする際に、茅台酒は...
競争が激しい母子ケア市場において、北德美はどのようにしてブルーカモミールの子供用シャンプーで急速に足...
ちょうど12連休が過ぎ、年末ショッピングフェスティバルの生放送室では偽造防止や消費者権利保護に関する...