最近では、Google の大規模 AI モデルの進歩が大きな注目を集めています。 しかし、誰もが手をこすり合わせながら、Google がどうやって流れを変えるのか見守っていたとき、AI 大規模モデルの分野の覇者、OpenAI が再び大きなニュースを発表しました。 海外メディアThe Informationによると、 OpenAIはマルチモーダルモデルGPT-Visionをリリースする予定だという。記事のタイトルには、これが Google に反撃するために使用されていることがはっきりと書かれています。 新しいバージョンはまだ実際には登場していませんが、このトラックにおける競争の焦点の次の段階であるマルチモーダル性を垣間見るには十分です。 01#「GPT-5」はどこまで進化したのか?The Informationによると、 OpenAIはGPT-4をベースにした画像理解機能GPT-Visionのリリースを準備している。これは、GPT-4 にバフを積み重ねて段階的に改善することと同じです。いずれにせよ、GPT-4 は依然として AI のリーダーとして認められています。 さらに、レポートでは、 OpenAIがGPT-Visionに続いて「Gobi」というコードネームの大規模モデルをリリースする可能性があるとも言及されている。 GPT-4とは異なり、いわゆる「より強力な」Gobiは、最初からマルチモーダルモデルに従って構築されました。 外の世界では、この新しい大規模モデルが GPT-5 の有力な候補として定着している。なぜなら、OpenAI の CEO 兼共同創設者であるサム・アルトマン氏が以前 MIT のイベントで反論した噂をほとんどの人が信じていないからだ。
結局のところ、この声明は主に「AI 巨大実験の中止」という公開書簡への返答として使われた。 3月29日、テスラのCEOイーロン・マスク氏、アップルの共同創業者スティーブ・ウォズニアック氏、チューリング賞受賞者のヨシュア・ベンジオ氏を含むテクノロジー業界の何千人もの人々が共同で、AIの安全性と倫理的問題を解決する時間を与えるため、GPT-4よりも強力なAIシステムの開発を6か月間停止するよう求めた。 今月初め、DeepMindの共同創設者であり、Inflection AIの現CEOであるムスタファ・スレイマン氏はインタビューで、OpenAIが秘密裏にGPT-5をトレーニングしていると信じていると語った。スレイマン氏は大多数の人々の推測をテーブルの上に置き、OpenAIに再び圧力をかけた。 しかし、OpenAI は今のところ関連ニュースに反応していないため、現時点で GPT-5 について語るには時期尚早かもしれません。コードネーム「ゴビ」の新しい大型モデルが噂の GPT-5 である可能性があるという事実以外、他には何もわかっていません。海外メディアの報道によると、OpenAIはまだGobiの訓練を開始していないようだ。 相対的に言えば、GPT-Vision の状況はより追跡可能です。 現在、多くの人が、 GPT-Vision は 3 月の GPT-4 発表会議で以前に実演されたマルチモーダル機能である可能性が高いと推測しています。当時、GPT-4 は簡単な手書きのスケッチに基づいて Web ページのコードを生成し、世界に衝撃を与えました。 しかし、この一瞬の驚きの後、視覚障害者向けの技術を開発する企業であるBe My Eyesに提供したこと以外、ヴィンセント画像などの機能を含む機能の更新や実際の使用に関するさらなる情報は発表されていない。 その理由は、OpenAI がこの機能が顔認識やその他の目的に悪用される可能性があることを懸念していたという、7 月のニューヨーク タイムズ紙の報道から推測できるかもしれません。サム・アルトマン氏が以前この噂を否定した際に述べたことと合わせて、「OpenAI は、公開書簡で無視されていた GPT-4 に基づくさまざまなセキュリティ問題に対処している」としている。関連するセキュリティ上の懸念は解決されている可能性があります。 また、この種のブロックが解除される可能性が高いことも意味します。 The Information によると、 OpenAI は「GPT-Vision」という名前でより広範囲に画像理解を提供したいと考えており、これにより、写真に一致するテキストの生成など、GPT-4 の新しい画像ベースのアプリケーションが数多く実現されることになるという。 一方、DALL-E 3も開発中であり、ChatGPTまたはGPT-4に統合される可能性があるという噂もあります。 OpenAI CEO サム・アルトマン氏がかつて述べたように、GPT-Vision と GPT-Vision は 11 月 6 日の OpenAI 開発者会議で発表される可能性があります。
一般的に、GPT-5はまだ登場していませんが、GPT-4はマルチモーダル性に焦点を当てる予定であり、科学技術の見方を一新する新たなAIブームもそう遠くないかもしれません。 02#OpenAIとGoogleが競合OpenAIの新たな動きを報じるにあたり、中国と海外のメディアは驚くほど一貫した見解を示し、基本的にはそれがGoogleのGeminiを狙ったものだと信じていた。 9月14日のメディア報道によると、事情に詳しい3人の人物を引用して、 Googleは少数の企業にGeminiの初期バージョンを提供し、同社のクラウドコンピューティングサービスを通じて企業に販売しており、これはGoogleが消費者向けサービスへの組み込みを検討しており、Geminiのリリースが差し迫っている可能性があることを意味する。 Gemini は Google の集大成として知られています。今年4月以降、プロジェクトの参加者にはディープマインドの元創業者デミス・ハサビス氏などの著名人が含まれており、グーグル創業者のセゲイ・ブリン氏もジェミニの訓練に自ら参加しているとの報道が出ている。 先月末、セミアナリシスのアナリスト、ディラン・パテル氏とダニエル・ニッシュボール氏がさらに関連情報を明らかにした。 既存の情報に基づいて、ジェミニについて次のように理解することができます。 1. 第 1 世代の Gemini は TPUv4 でトレーニングする必要があり、チップの信頼性とホットスワップ可能性を確保するために、より少数のチップを使用する必要があります。現在、GPT-4 のトレーニングよりも 5 倍の計算能力を持つ TPUv5 Pod でのトレーニングが開始されています。 2. Geminiのトレーニングデータベースは、YouTubeの動画字幕93.6億分であり、データセットの合計サイズはGPT-4の約2倍です。 3. Gemini は大規模な言語モデルのグループで構成されており、MOE アーキテクチャと投機的サンプリング技術を使用して、事前に小さなモデルを通じてトークンを生成し、それを評価のために大きなモデルに送信することで、全体的な推論速度を向上させます。 4. Gemini はチャットボットをサポートし、テキストの要約やオリジナルテキスト(メールの下書き、歌詞、ニュース記事など)の生成、オリジナル画像の生成などを行います。 5. Gemini はエンジニアのコード作成を支援します。 Google は、開発者のコード生成機能を向上させて、OpenAI に依存する Microsoft の GitHub Copilot コード アシスタントに追いつくことを期待しています。 6. Google の従業員は、モデルにチャートの意味を説明してもらったり、テキストや音声コマンドを使用して Web ページや他のソフトウェアを閲覧したりするなど、チャート分析などの機能を Gemini で実装することも検討しています。 7. Gemini にはさまざまなサイズのバージョンがあり、開発者は簡単なタスクを処理するために簡易バージョンを購入できます。このバージョンは、個人用端末で実行できるほど小さいです。 注目すべきは、 Gemini が GPT-4 よりも優れている点です。Web 上の公開情報に加えて、Google の消費者向け製品から得られる膨大な独自データも活用できるのです。したがって、次のように信じる人もいます。
ジェミニはまだ実際にデビューしていないにもかかわらず、多くの人がそれに対して楽観的な見方を示しています。上記の記事では、ディラン・パテル氏とダニエル・ニッシュボール氏も同様の見解を述べています。
Gemini のすべての項目が GPT-4 と比較されていることがわかりますが、これは当然のことです。結局のところ、ChatGPTが登場する前は、AIの剣を握っていたのはGoogleでした。 つまり、国民の総意は...
これを踏まえると、Google はより一層努力し、AI でもポイントを獲得できることを証明するプロセスを加速させる必要がある。 Google は、OpenAI が真のマルチモーダル モデルを考案する前に、自らの旗を高みに掲げようと、直接ホームグラウンドを奪うことを選択しました。もちろん、OpenAI は Google にそれを追求させるつもりはなく、そのために GPT-Vision と Gobi が誕生したのです。 これは、AI競争の次の段階の焦点が、各社が開発しているマルチモダリティになることを示唆している。結局のところ、テキスト形式の生成 AI はもはや新しいものではなく、どれほどスマートであっても、ChatGPT の栄光には劣るしかありません。 しかし、今日では、AI の戦場はもはや 2 つの軍隊が互いに戦う状況ではありません。 Google と OpenAI は、この混戦の中でより目立つ巨人であるに過ぎません。 利益を上げる必要のある両社は、企業向け政策など、大規模なモデル事業に商業的な要素を加えてきた。しかし、後発ながら異なるアプローチをとった Meta は、オープンソースのルートを採用し、大量かつ無料を主な焦点として、新機能を継続的にリリースしてきました。 コストを理由に人々が Meta を選択するかどうかを判断するのは難しいです。 現在のAI乱闘は膠着状態、白熱した段階に達していると言える。次に飛び出すのは誰でしょうか?しばらくは弾丸を飛ばし続けましょう。 |
>>: 新しい消費セクターの後半は何を「展開」しているのでしょうか?
Amazonでストアを開く場合、出品のプロモーション方法を理解することは避けられません。出品には親、...
Shopee にストアを開設したら、商品をアップロードする必要があります。商品をアップロードする際に...
アマゾンの越境電子商取引プラットフォームはカバー範囲が広く、毎月平均2億人のユーザーを集めており、主...
1999年、FSCは中国で最初のCoC証明書を発行しました。 2007年にFSC中国ワーキンググルー...
金融技術の急速な発展に伴い、新しい決済手段としてのデジタルクレジットカードが徐々に人気を集めています...
初心者にとって、1688 を使用してドロップシッピングを行い、商品を海外に正常に発送できるかどうかは...
電子商取引業界の急速な発展により、Wish プラットフォームは世界中の何百万もの販売者にとって第一の...
顧客からの注文を受けた後、Amazon マーチャントは出荷の準備を開始します。発送が早ければ早いほど...
この記事は、季節商品から始まり、今や急務となっている消耗品であるTシャツの使い方についての基本情報を...
この記事の著者は、10 個のブランド成長モデルを紹介し、ユーザー、コミュニケーション、競争、コンバー...
どのプラットフォームでストアを開くかに関係なく、eコマースを行っている限り、それを宣伝したいと思うで...
最近、成都市楡林市の八郷コミュニティが予期せずしてネットセレブたちの人気のチェックインスポットとなり...
Appleは技術的な革新は多くありませんが、携帯電話やその他の端末へのAIの実装に関して多くのエンジ...
マーケティングオートメーションの概念は近年になってようやく普及してきましたが、マーケティングオートメ...
WeChatビデオアカウントが開始されてから4年が経ち、プラットフォーム上の消費の50%以上を中高年...