今年初めにSORAがデビューして以来、国内外の人々がAIを使ってハリウッドを転覆させようと試みている。最近、AIビデオ界隈は非常に活況を呈しており、次々と製品がリリースされ、いずれもSoraを超えようと躍起になっています。 海外のAIビデオスタートアップ2社が先頭に立った。サンフランシスコの人工知能技術企業Lumaは、Dream Machineビデオ生成モデルを立ち上げ、映画レベルのプロモーションビデオを公開した。この製品は、ユーザーに無料試用版も提供されます。 AIビデオ分野で一定の評価を得ている別のスタートアップ企業であるRunwayも、光や影などのディテールを演出できると主張し、Gen-3 Alphaモデルを一部ユーザーにテスト用に公開すると発表しました。 負けじと、国内市場ではKuaishouのKeLingウェブクライアントも発売されており、ユーザーは最大10秒のビデオコンテンツを生成でき、最初と最後のフレーム制御やカメラレンズ制御機能も備えています。同社のオリジナルAIファンタジー短編ドラマ「山海魔鏡:波濤を切る」も快手で放送されており、映像はすべてAIによって生成されている。 AI SF短編ドラマ『三星堆:未来黙示録』も最近放送された。これはByteDanceのAIビデオ製品Jimengのために制作された。 AI動画の更新があまりにも速いため、多くのネットユーザーが「ハリウッドがまたストライキを起こすかもしれない」と叫んだ。 現在、AIビデオトラックには、Google、Microsoft、Meta、Alibaba、ByteDance、Meituなどの国内外のテクノロジーおよびインターネットの大手企業のほか、Runway、Aishi Technologyなどの新興企業も参加しています。 「Dingjiao」の不完全な統計によると、中国だけでも、自社開発のAIビデオ製品/モデルを発売した企業が約20社あるという。 TouBao Research Instituteのデータによると、中国のAIビデオ生成産業の市場規模は2021年に800万元で、この市場規模は2026年には92億7900万元に達すると予測されています。多くの業界関係者は、ビデオ生成トラックが2024年に中期の瞬間を迎えると考えています。 世界中のソラたちはどの段階に到達したのでしょうか?誰が一番強いのか? AIはハリウッドを乗っ取ることができるか? 1. ソラを包囲する:商品はたくさんあるが、役に立つものは少ないAIビデオトラックでは多くの製品/モデルが発売されていますが、一般の人が使用できるのは限られた数だけです。海外の代表的なものとしては Sora がありますが、半年経ってもまだ社内テスト段階であり、セキュリティ チームと一部のビジュアル アーティスト、デザイナー、映画製作者にのみ公開されています。中国の状況も同様です。アリババDAMOアカデミーのAIビデオ製品「Xunguang」と百度のAIビデオモデルUniVGは、どちらも内部テスト段階にあります。現在人気の「快手客鈴」も、利用希望者は申し込みに行列する必要があり、すでに半分以上の商品が売り切れとなっている。 使用可能な残りの AI ビデオ製品の中には、使用しきい値が設定されており、ユーザーが料金を支払ったり、特定のテクノロジーを理解したりする必要があるものもあります。たとえば、ユーザーがコーディングの知識をまったく持っていない場合、Luchen Technology の Open-Sora をどこから始めればよいかわかりません。 「Dingjiao」は国内外で発売されたAIビデオ製品を分類し、各社の操作方法や機能が類似していることを発見した。ユーザーはまずテキストで指示を生成し、次にフレーム サイズ、画像の鮮明度、生成スタイル、生成秒数などの機能を選択し、最後にボタンを 1 つクリックして生成します。 これらの機能の背後にある技術的な難しさはさまざまです。最も難しいのは、生成される動画の鮮明さと秒数であり、プロモーションの際にAI動画分野の企業間の競争の焦点にもなっています。これは、トレーニング プロセスで使用される教材の品質と計算能力の量に密接に関係しています。 AI研究者のサイラス氏はDingjiaoに対し、現在、国内外のAIビデオのほとんどは480p/720pの生成をサポートしており、少数が1080pの高解像度ビデオをサポートしていると語った。 高品質な素材が増えれば増えるほど計算能力が高まり、訓練されたモデルはより高品質のビデオを生成できるようになると紹介しました。しかし、これは高品質の材料と計算能力があれば高品質の材料を生成できるということを意味するものではありません。ただし、低解像度の素材でトレーニングされたモデルで高解像度のビデオを生成しようとすると、余分な手足があるなど、ビデオが破損したり繰り返し表示されたりします。これらの問題は拡大、修復、再描画によって解決できますが、効果とディテールは平均的です。 多くの企業は、生成された長い秒数をセールスポイントとしても活用しています。 国内のAI動画のほとんどは2〜3秒に対応しており、5〜10秒に到達できる製品は比較的強力であると考えられています。 Jimeng など、最大 12 秒の非常に人気のある製品もあります。しかし、最大 60 秒のビデオを生成できるとかつて述べていた Sora に匹敵するものはありません。ただし、まだ開封して使用していないため、具体的な性能は検証できません。 ビデオの長さだけでは不十分で、生成されるビデオ コンテンツも妥当なものでなければなりません。 Shiliu AIの主任研究員である張恒氏は「Dingjiao」に次のように語った。「技術的には、AIは継続的に出力することが求められる場合があります。」 1 時間のビデオを生成することさえ問題ではないと言っても過言ではありません。しかし、ほとんどの場合、私たちが求めているのは監視ビデオでも、ループする風景アニメーションでもなく、美しい映像とストーリーのある短編映画です。 Dingjiaoは、ByteDanceのJimeng、Morph AIのMorph Studio、Aishi TechnologyのPixVerse、MewXAIのYiying AI、Right Brain TechnologyのVega AIという、中国の動画向けの人気の無料AI製品5つをテストし、それらに「赤いスカートをはいた少女が公園で白いウサギにニンジンを与えている」という同じテキスト指示を与えた。 いくつかの製品の生成速度は似ており、わずか 2 ~ 3 分しかかかりませんが、鮮明度と持続時間には大きなばらつきがあり、精度はさらに混沌としています。 それぞれの利点と欠点は明らかです。持続時間では夢が勝るが、生成品質は高くない。主人公である少女は、後半で直接的に奇形化される。 Vega AIにも同じ問題があります。 PixVerse の画像品質は比較的低いです。 比較すると、Morph によって生成されるコンテンツは正確ですが、わずか 2 秒しか持続しません。易瑛の画質も良いですが、文章の理解が不十分で、ウサギの重要な要素が直接失われています。生成されたビデオは十分に現実的ではなく、漫画風です。 つまり、要件を満たすビデオを提供できる製品はまだ存在しないのです。 2. AIビデオの課題:正確性、一貫性、豊かさ「固定焦点」の体験は、各社が公開しているプロモーションビデオとは大きく異なります。 AI ビデオが本当に商業化されるには、まだ長い道のりが残っています。 張恒氏は「Dingjiao」に対し、技術的な観点から、さまざまなAIビデオモデルのレベルを主に、正確性、一貫性、豊富さという3つの側面から検討していると語った。 張恒氏は、これら 3 つの次元をどのように理解するかを説明するために例を挙げました。 たとえば、「遊び場でバスケットボールの試合を観戦している 2 人の女の子」のビデオを生成します。 正確さは、まず、コンテンツの構造を正確に理解することに反映されます。たとえば、ビデオに登場するオブジェクトは女の子である必要があり、女の子は 2 人います。 2 番目は、正確なプロセス制御です。たとえば、シュートを打った後、バスケットボールは徐々にネットから落ちなければなりません。そして最後に、正確な静的データモデリング。たとえば、カメラに障害物がある場合、バスケットボールはラグビーボールに変わることができません。 一貫性とは、主題への注意と長期的な注意を含む、時間と空間における AI のモデリング能力を指します。 主な注意点は、バスケットボールの試合を観戦している間、2人の少女は常に画面内に留まらなければならず、走り回ってはならないということであると考えられます。長期的な注意とは、移動中にビデオ内のさまざまな要素が失われたり、変形したり、その他の異常な状態になったりしないことを意味します。 豊富さとは、AI にも独自のロジックがあり、テキストプロンプトがなくても適切な詳細を生成できることを意味します。 基本的に、市場で入手可能な AI ビデオ ツールは上記の次元を完全に実現することができず、さまざまな企業が絶えずソリューションを提案しています。 例えば、動画では非常に重要なキャラクターの一貫性という点では、Ji Meng 氏と Ke Ling 氏はテキストベースの動画ではなく、画像ベースの動画を使用することを考えました。つまり、ユーザーはまずテキスト付きの写真を生成し、次に写真付きの動画を生成するか、直接 1 枚または 2 枚の写真を渡し、AI がそれらを接続して動的な動画を作成します。 「しかし、これは新たな技術革新ではなく、画像生成ビデオの難易度はテキスト生成ビデオよりも低い」と張恒氏は『Dingjiao』に語った。テキスト生成ビデオの原理は、AI がまずユーザーが入力したテキストを解析し、それをショットの説明のグループに分解し、説明をテキストに変換してから画像に変換し、ビデオの中間キーフレームを取得するというものです。これらの写真をつなげることで、アクションのある連続した動画が得られます。画像生成ビデオは、AI に模倣できる特定の画像を与えることと同じです。生成されたビデオは写真の顔の特徴を継続し、主人公の一貫性を実現します。 また、実際のシナリオでは、画像生成ビデオの効果はユーザーの期待に沿ったものになっているとも述べた。テキストでは画像の詳細を表現する能力が限られているため、画像を参照することでビデオを生成することはできますが、まだ商業的に実現可能ではありません。直感的に言えば、5秒が画像生成ビデオの上限です。 10 秒を超えると、内容が繰り返されたり、構造が歪んで品質が低下したりするため、あまり意味がない可能性があります。 現在、完全に AI で制作されていると主張する多くの短編映画やテレビ番組では、主に画像からビデオ、またはビデオからビデオへの変換が使用されています。 Jimengは写真ベースのビデオの最後のフレーム機能も使用し、意図的に「固定フォーカス」を試みました。結合の過程で、文字が変形したり歪んだりして見えました。 サイラス氏はまた、ビデオには連続性が必要であり、画像からビデオへの変換をサポートする多くの AI ビデオ ツールも単一フレームの画像を通じて後続のアクションを推測すると述べました。推論が正しいかどうかは、やはり運次第です。 文勝動画の主人公の一貫性を達成するには、各社がデータ生成だけに頼っているわけではないことが理解されています。張恒氏は、ほとんどのモデルは元々の基礎となるDITモデルに基づいており、ControlVideo(ハルビン工業大学とHuawei Cloudが提案した制御可能なテキストビデオ生成方法)などのさまざまな技術を重ねて、主人公の顔の特徴に対するAIの記憶を深め、動きの中で顔が大きく変化しないようにしていると述べた。 しかし、まだ試験段階です。技術を追加しても、文字の一貫性の問題は完全に解決されていません。 3. AI ビデオの進化が遅いのはなぜですか?AI界では、現在、米国と中国が最も競争力がある。 「2023年世界で最も影響力のある人工知能学者」(「AI 2000学者」リストと称される)の関連レポートから、2020年から2023年の4年間で世界の「AI 2000機関」1,071機関のうち、米国が443機関、中国が137機関で続いていることがわかります。2023年の「AI 2000学者」の国別分布から、選出者数が最も多いのは米国で、合計1,079人で、世界全体の54.0%を占め、次いで中国が280人で続いています。 過去2年間、AIは映像や音楽の分野で大きな進歩を遂げただけでなく、最も困難とされるAIビデオ分野でも大きな進歩を遂げました。 最近の世界人工知能会議で、Yitian CapitalのパートナーであるLe Yuan氏は、ビデオ生成技術は過去2〜3年で予想をはるかに超える進歩を遂げたと公に述べた。シンガポールの南洋理工大学の助教授である劉子偉氏は、ビデオ生成技術は現在GPT-3の時代にあり、成熟するまでには半年ほどかかると考えている。 しかし、楽元氏はまた、その技術レベルは大規模な商業化を支えるにはまだ不十分であると強調した。言語モデルに基づくアプリケーションの開発に使用される方法論と課題は、ビデオ関連のアプリケーション分野にも適用できます。 今年の初めのソラの出現は世界に衝撃を与えた。トランスフォーマーアーキテクチャの新しい拡散モデルDiTに基づいて、拡散と生成において技術的なブレークスルーを実現し、画像生成の品質とリアリティを向上させ、AIビデオに大きな進歩をもたらしました。サイラス氏は、現在、国内外の文化ビデオのほとんどが同様の技術を使用していると述べた。 現時点では、基礎となる技術については基本的に全員が一貫しています。各社もこれを基に技術革新を模索しているが、製品機能を充実させるためにはより多くの学習データが必要となる。 ByteDanceのJimengとMorph AIのMorph Studioを使用する場合、ユーザーはビデオのカメラ移動方法を選択できます。この背後にある原則は、異なるデータ セットです。 「これまで、さまざまな企業がトレーニングに使用していた画像は比較的単純なものでした。画像内の要素にラベルが付けられていることがほとんどでしたが、その要素を撮影するためにどのレンズが使用されたかは説明されていませんでした。そのため、多くの企業がこのギャップに気づき、3D レンダリングされたビデオ データセットを使用してレンズの特徴を補完しました。」張恒氏は、現在これらのデータは映画・テレビ業界やゲーム会社からのレンダリングから得たものだと述べた。 「固定フォーカス」でもこの機能を試してみましたが、レンズの変化はあまり目立ちませんでした。 Sora やその他のアルゴリズムが GPT や Midjourney よりも開発が遅い理由は、別のタイムラインが設定されており、ビデオ モデルのトレーニングがテキストや画像よりも難しいためです。 「利用可能なビデオトレーニングデータはすべて使い果たされており、トレーニングに使用できる一連のデータを作成するための新しい方法も検討しています」と張恒氏は語った。 さらに、各 AI ビデオ モデルには独自のスタイルがあります。例えば、快手克玲が制作した料理中継動画は、大量のデータに支えられているため、より優れている。 Shiliu AI の創設者である Shen Renkui 氏は、AI ビデオのテクノロジーには、テキストからビデオ、画像からビデオ、ビデオからビデオ、アバターからビデオが含まれると考えています。カスタマイズされた画像と音声を持つデジタルヒューマンはマーケティング分野で活用され、商業レベルに達していますが、アバター動画は依然として精度と制御性の問題を解決する必要があります。 現時点では、DouyinとBonaが共同制作したAI SF短編ドラマ「三星堆:未来の黙示録」であれ、Kuaishouがオリジナルで制作したAIファンタジー短編ドラマ「山海鏡:波濤を切る」であれ、大手モデル会社が積極的に協力してくれる映画・テレビ制作チームを探している状況だ。彼らは自社の技術製品を宣伝する必要性を感じており、彼らの作品はサークルの外に出ていません。 短編動画の分野では、AI の進歩はまだ長く、ハリウッドを席巻したと言うのは時期尚早です。 著者: 王 陸 出典:WeChatパブリックアカウント:「Dingjiaoone(ID:dingjiaoone)」 |
Amazon でストアを開設する場合、販売者は代金回収の問題を非常に懸念します。 Amazonの支払...
Ele.me の最新の動きは目を引くものです。 50%割引で2次元ゲーム界に正式に参入しました。この...
本稿では、「必要至上消費」が流行する時代に若者の購買意欲を刺激するにはどうすればよいかを4つの側面か...
本稿では、ブランド資産の構成に関する学術理論、ブランド資産評価に関する業界の実践、ブランド資産の評価...
最近はビデオアカウントが増加しており、多くの企業が参入してそのシェアを獲得したいと考えています。では...
サイゼリヤは低価格の西洋料理で中国で人気となっている。精密なレイアウトとコスト管理のおかげで、価格を...
小紅書のプロモーション期間中、ブランドはオーディエンスを正確にターゲティングし、ライフスタイルやシナ...
まとめをするたびに、また一年が終わろうとしていることを実感します。 2023 年のトップ 10 のホ...
GRS認証の期待される結果:申告されたリサイクル材料は、入力から最終製品まで、完全かつ検証済みの保管...
今日はShopee海外倉庫についての内容を紹介します。Shopee海外倉庫の登場により、商店主の多く...
この記事の著者は、いくつかの簡単なケースを通してデータ洞察力を向上させる方法を教え、データ分析プロセ...
データ分析の道では、多くの初心者がどのように進めていけばよいのか戸惑うことがよくあります。この記事で...
まずISO9001についてお話しましょう。 ISO9001 は、ISO9000 規格群に含まれる品質...
Amazon ストアを運営するには、まず運営したいモデルを選択する必要があります。たとえば、流通モデ...
モバイルインターネット技術、ビッグデータ技術、アルゴリズム技術の発展により、ブランドマーケティングは...