GPT-5 は来るのか？ OpenAIの最新の大規模モデルが公開されました！

最近では、Google の大規模 AI モデルの進歩が大きな注目を集めています。

しかし、誰もが手をこすり合わせながら、Google がどうやって流れを変えるのか見守っていたとき、AI 大規模モデルの分野の覇者、OpenAI が再び大きなニュースを発表しました。

海外メディアThe Informationによると、 OpenAIはマルチモーダルモデルGPT-Visionをリリースする予定だという。記事のタイトルには、これが Google に反撃するために使用されていることがはっきりと書かれています。

新しいバージョンはまだ実際には登場していませんが、このトラックにおける競争の焦点の次の段階であるマルチモーダル性を垣間見るには十分です。

01#「GPT-5」はどこまで進化したのか？

The Informationによると、 OpenAIはGPT-4をベースにした画像理解機能GPT-Visionのリリースを準備している。これは、GPT-4 にバフを積み重ねて段階的に改善することと同じです。いずれにせよ、GPT-4 は依然として AI のリーダーとして認められています。

さらに、レポートでは、 OpenAIがGPT-Visionに続いて「Gobi」というコードネームの大規模モデルをリリースする可能性があるとも言及されている。 GPT-4とは異なり、いわゆる「より強力な」Gobiは、最初からマルチモーダルモデルに従って構築されました。

外の世界では、この新しい大規模モデルが GPT-5 の有力な候補として定着している。なぜなら、OpenAI の CEO 兼共同創設者であるサム・アルトマン氏が以前 MIT のイベントで反論した噂をほとんどの人が信じていないからだ。

現在、GPT-5 をトレーニングしておらず、短期的にはトレーニングする予定もありません。

サム・アルトマンがMITでのGPT-5の噂に反応

結局のところ、この声明は主に「AI 巨大実験の中止」という公開書簡への返答として使われた。 3月29日、テスラのCEOイーロン・マスク氏、アップルの共同創業者スティーブ・ウォズニアック氏、チューリング賞受賞者のヨシュア・ベンジオ氏を含むテクノロジー業界の何千人もの人々が共同で、AIの安全性と倫理的問題を解決する時間を与えるため、GPT-4よりも強力なAIシステムの開発を6か月間停止するよう求めた。

今月初め、DeepMindの共同創設者であり、Inflection AIの現CEOであるムスタファ・スレイマン氏はインタビューで、OpenAIが秘密裏にGPT-5をトレーニングしていると信じていると語った。スレイマン氏は大多数の人々の推測をテーブルの上に置き、OpenAIに再び圧力をかけた。

インタビュー番組「Inflection AI の CEO ムスタファ・スレイマン氏が人工知能のリスクについて語る」のスクリーンショット

しかし、OpenAI は今のところ関連ニュースに反応していないため、現時点で GPT-5 について語るには時期尚早かもしれません。コードネーム「ゴビ」の新しい大型モデルが噂の GPT-5 である可能性があるという事実以外、他には何もわかっていません。海外メディアの報道によると、OpenAIはまだGobiの訓練を開始していないようだ。

相対的に言えば、GPT-Vision の状況はより追跡可能です。

現在、多くの人が、 GPT-Vision は 3 月の GPT-4 発表会議で以前に実演されたマルチモーダル機能である可能性が高いと推測しています。当時、GPT-4 は簡単な手書きのスケッチに基づいて Web ページのコードを生成し、世界に衝撃を与えました。

3月のGPT-4打ち上げ会議でのデモンストレーションプロセス

しかし、この一瞬の驚きの後、視覚障害者向けの技術を開発する企業であるBe My Eyesに提供したこと以外、ヴィンセント画像などの機能を含む機能の更新や実際の使用に関するさらなる情報は発表されていない。

その理由は、OpenAI がこの機能が顔認識やその他の目的に悪用される可能性があることを懸念していたという、7 月のニューヨークタイムズ紙の報道から推測できるかもしれません。サム・アルトマン氏が以前この噂を否定した際に述べたことと合わせて、「OpenAI は、公開書簡で無視されていた GPT-4 に基づくさまざまなセキュリティ問題に対処している」としている。関連するセキュリティ上の懸念は解決されている可能性があります。

また、この種のブロックが解除される可能性が高いことも意味します。

The Information によると、 OpenAI は「GPT-Vision」という名前でより広範囲に画像理解を提供したいと考えており、これにより、写真に一致するテキストの生成など、GPT-4 の新しい画像ベースのアプリケーションが数多く実現されることになるという。

一方、DALL-E 3も開発中であり、ChatGPTまたはGPT-4に統合される可能性があるという噂もあります。 OpenAI CEO サム・アルトマン氏がかつて述べたように、GPT-Vision と GPT-Vision は 11 月 6 日の OpenAI 開発者会議で発表される可能性があります。

GPT-4.5 や GPT-5 ほど大きなものはありませんが、「素晴らしいもの」は存在するでしょう。

一般的に、GPT-5はまだ登場していませんが、GPT-4はマルチモーダル性に焦点を当てる予定であり、科学技術の見方を一新する新たなAIブームもそう遠くないかもしれません。

02#OpenAIとGoogleが競合

OpenAIの新たな動きを報じるにあたり、中国と海外のメディアは驚くほど一貫した見解を示し、基本的にはそれがGoogleのGeminiを狙ったものだと信じていた。

9月14日のメディア報道によると、事情に詳しい3人の人物を引用して、 Googleは少数の企業にGeminiの初期バージョンを提供し、同社のクラウドコンピューティングサービスを通じて企業に販売しており、これはGoogleが消費者向けサービスへの組み込みを検討しており、Geminiのリリースが差し迫っている可能性があることを意味する。

Gemini は Google の集大成として知られています。今年4月以降、プロジェクトの参加者にはディープマインドの元創業者デミス・ハサビス氏などの著名人が含まれており、グーグル創業者のセゲイ・ブリン氏もジェミニの訓練に自ら参加しているとの報道が出ている。

先月末、セミアナリシスのアナリスト、ディラン・パテル氏とダニエル・ニッシュボール氏がさらに関連情報を明らかにした。

既存の情報に基づいて、ジェミニについて次のように理解することができます。

1. 第 1 世代の Gemini は TPUv4 でトレーニングする必要があり、チップの信頼性とホットスワップ可能性を確保するために、より少数のチップを使用する必要があります。現在、GPT-4 のトレーニングよりも 5 倍の計算能力を持つ TPUv5 Pod でのトレーニングが開始されています。

2. Geminiのトレーニングデータベースは、YouTubeの動画字幕93.6億分であり、データセットの合計サイズはGPT-4の約2倍です。

3. Gemini は大規模な言語モデルのグループで構成されており、MOE アーキテクチャと投機的サンプリング技術を使用して、事前に小さなモデルを通じてトークンを生成し、それを評価のために大きなモデルに送信することで、全体的な推論速度を向上させます。

4. Gemini はチャットボットをサポートし、テキストの要約やオリジナルテキスト（メールの下書き、歌詞、ニュース記事など）の生成、オリジナル画像の生成などを行います。

5. Gemini はエンジニアのコード作成を支援します。 Google は、開発者のコード生成機能を向上させて、OpenAI に依存する Microsoft の GitHub Copilot コードアシスタントに追いつくことを期待しています。

6. Google の従業員は、モデルにチャートの意味を説明してもらったり、テキストや音声コマンドを使用して Web ページや他のソフトウェアを閲覧したりするなど、チャート分析などの機能を Gemini で実装することも検討しています。

7. Gemini にはさまざまなサイズのバージョンがあり、開発者は簡単なタスクを処理するために簡易バージョンを購入できます。このバージョンは、個人用端末で実行できるほど小さいです。

注目すべきは、 Gemini が GPT-4 よりも優れている点です。Web 上の公開情報に加えて、Google の消費者向け製品から得られる膨大な独自データも活用できるのです。したがって、次のように信じる人もいます。

このモデルは、特定のクエリに対するユーザーの意図を理解するのに特に正確であるはずであり、誤った回答（幻覚など）を生成することが少なくなるようです。

ジェミニはまだ実際にデビューしていないにもかかわらず、多くの人がそれに対して楽観的な見方を示しています。上記の記事では、ディラン・パテル氏とダニエル・ニッシュボール氏も同様の見解を述べています。

明らかではないかもしれない声明は、眠れる巨人である Google が目覚め、年末までに GPT-4 の事前トレーニング FLOPS を 5 倍に増やすペースで反復しているということです。

Gemini のすべての項目が GPT-4 と比較されていることがわかりますが、これは当然のことです。結局のところ、ChatGPTが登場する前は、AIの剣を握っていたのはGoogleでした。

つまり、国民の総意は...

ここでのポイントは、Google は王国への鍵をすべて持っていたのに、それをうまく利用できなかったということだ。

これを踏まえると、Google はより一層努力し、AI でもポイントを獲得できることを証明するプロセスを加速させる必要がある。 Google は、OpenAI が真のマルチモーダルモデルを考案する前に、自らの旗を高みに掲げようと、直接ホームグラウンドを奪うことを選択しました。もちろん、OpenAI は Google にそれを追求させるつもりはなく、そのために GPT-Vision と Gobi が誕生したのです。

これは、AI競争の次の段階の焦点が、各社が開発しているマルチモダリティになることを示唆している。結局のところ、テキスト形式の生成 AI はもはや新しいものではなく、どれほどスマートであっても、ChatGPT の栄光には劣るしかありません。

しかし、今日では、AI の戦場はもはや 2 つの軍隊が互いに戦う状況ではありません。 Google と OpenAI は、この混戦の中でより目立つ巨人であるに過ぎません。

利益を上げる必要のある両社は、企業向け政策など、大規模なモデル事業に商業的な要素を加えてきた。しかし、後発ながら異なるアプローチをとった Meta は、オープンソースのルートを採用し、大量かつ無料を主な焦点として、新機能を継続的にリリースしてきました。

コストを理由に人々が Meta を選択するかどうかを判断するのは難しいです。

現在のAI乱闘は膠着状態、白熱した段階に達していると言える。次に飛び出すのは誰でしょうか？しばらくは弾丸を飛ばし続けましょう。

<<: AIは将来のSaaSの標準機能だが、万能薬ではない

>>: 新しい消費セクターの後半は何を「展開」しているのでしょうか?

Amazonは旧正月期間中も発送しますか?商品を発送できない場合はどうなりますか？

GPT-5 は来るのか？ OpenAIの最新の大規模モデルが公開されました！

01#「GPT-5」はどこまで進化したのか？

02#OpenAIとGoogleが競合

Amazonは旧正月期間中も発送しますか?商品を発送できない場合はどうなりますか？

PayPalの出金手数料はいくらですか？どのように充電しますか？

1 秒間の頭の変化技術によって、私たちからどれだけの IQ 税が徴収されたのでしょうか?

Shopeeメインアカウントを取得するにはどうすればいいですか?どうやってやるんですか？

ローカルライフ3.0: フードデリバリーにはDouyin、動画視聴にはMeituan

Amazonの平均返品率はどれくらいですか?返品率を確認するには？

ダークな料理、巨大なパッケージ、奇妙な名前…なぜ「好奇心マーケティング」が繰り返しトラフィックの秘密のコードになるのでしょうか?

Sheinの人気商品を見つけるにはどうすればいいですか?ヒット商品を生み出すには？

Coupangに参加するための条件は何ですか?

Amazonで注文品を発送するのは難しいですか？商品の選び方は？

推薦する

Amazonの親画像が表示されますか?どこにアップロードしますか?

Shopeeでタイトルを変更する際に注意すべき点は何ですか？タイトルのキーワードをどのように選択すればよいですか?

Amazonで越境電子商取引を行うにはどうすればいいですか?プロセスの紹介

中国におけるFSC森林認証の発展

デジタルクレジットカードには物理的なカードがありますか?デジタルクレジットカードはどこで申し込めますか？

1688 ドロップシッピングは海外に発送できますか?初心者が1688年から商品を入手するにはどうすればいいでしょうか?

Wishで店舗を開くときに商品の供給元を見つけるにはどうすればいいですか?店舗を開くと利益が出るのでしょうか？

Amazon の配送の物流を確認するにはどうすればいいですか?方法の紹介

Tシャツ4枚99元、毎年完売です！

ブランドNo.1：24年、10の成長モデル

Amazon ビデオ広告を掲載するにはどうすればいいですか?戦略は何ですか?

成都の「ディズニー」が大ヒット：抽象的なネットセレブの「具体化」

Apple AI: 驚きは少ないが、Androidスマートフォンの模範となる

マーケティングオートメーション（MA）とは何ですか？マーケティング自動化システムの構築方法

中高年女性の服装が電子商取引業界で話題に