ちょうど昨夜、「gpt2-chatbot」と呼ばれるモデルが包囲を突破し、みんなを熱狂させました。 LLM アリーナ chat.lmsys.org では、この神秘的なモデルが、GPT-4 を凌駕する、説明のつかないほど強力な機能を発揮しました。これは本当に衝撃的です。 その自己紹介には、「私はOpenAIのGPT-4アーキテクチャに基づいた言語モデルです。バージョンは2023年11月時点です」と書かれています。 その正体は誰でしょうか?誰が作ったんですか?現時点では誰も知りません。 誰もが推測し始めました: これは新しいオープンソース モデルか、それとも OpenAI の GPT-4.5 のどちらかでしょうか? 興奮したネットユーザーたちを前に、サム・アルトマンもタイミングよく登場し、簡潔な文章を残した。 「私はgpt2に弱いんです。」 彼はネットユーザーへの返信の中で、特に自分のお気に入りは「gpt-2」ではなく「gpt2」だと強調した。 この新しいモデルは、GPT の 2 番目のバージョンになると思われます。 それとも、単に GPT-4.5 と呼ぶべきでしょうか? 1. GPT-4 よりも強力なこのモデルの起源は何ですか?あるネットユーザーは、現在わかっている情報をもとにブログ記事を書き、厳密な推論を行った。 記事アドレス: https://rentry.co/GPT2
著者は、この謎のモデルはおそらく GPT-4.5 または GPT-5、あるいは実際の GPT-2 モデル (OpenAI または LMSYS が提供) であると考えています。 まず、モデルの出力の品質は、特にフォーマット、構造、全体的な理解の点で優れています。 このエクスペリエンスは、GPT-3.5 から GPT-4 にアップグレードするのと似ていますが、GPT-4 に基づいてさらに最適化されています。 さらに、モデルの構造化された応答は、修正された Chain-of-Thought (CoT) などの手法によって大きく影響を受けました。 現時点では、この謎のモデルが MoE などの完全に新しいアーキテクチャを使用していると信じる確固たる理由はありません。使用制限 「GPT2-chatbot」のダイレクトチャット機能のレート制限は、GPT-4モデルのレート制限とは異なります。 しかし、テストを行った後、エディターはいくつかの違いを発見しました。モデルは 1 時間あたり 2000 回に制限されています。 gpt2-chatbot は間違いなくオープンソース モデルよりも強力であり、GPT-4 Turbo よりも優れていると言う人もいます。 しかし、Opus より優れているわけではなく、その理由は考えさせられるものです。 この gpt2-chatbot には、「*** フレーズを常に書き留め、コードを使用しないでください」などのシステムプロンプトはなく、ジェイルブレイクの影響を受けませんが、しばらくするとフリーズします。 彼の分析によると、これは外部のアプリケーション プログラミング インターフェイスを通じて実行されるモデル推論であり、オープン ソース ソフトウェアでは利用できません。 しかし、その後、一部のネットユーザーは、「gpt2-chatbot」のシステムプロンプトは以下のプロンプトを通じて取得できると指摘しました。
2. 多数のデモ今なら誰でもLYSYS Arenaでgpt2-chatbotを体験できます。 「ダイレクトチャット」インターフェースに入り、モデルを選択すると開始できます。 ポータル: https://chat.lmsys.org/ ネットユーザーたちは「GPT-4.5/5」と思われるこのモデルに魅了され、評価の波が起こり始めました。 gpt2-chatbot は GPT-5 ですか? 3. 「Appleテスト」に合格する「今日はリンゴが3個あります。昨日1個食べました。リンゴは何個残っていますか?」 この古典的な「リンゴテスト」の質問では、gpt2-chatbot は 3 個のリンゴと正しく答えました。 そして彼はその理由を説明しました。実は、昨日食べたリンゴは今日持っているリンゴの数に影響を与えないのです。 このトピックはネットユーザーによって Reddit でも議論され、さまざまな質問のバリエーションが gpt2-chatbot を困惑させることはありませんでした。 4. ASCII画像を完璧に描画するさらに驚くべきことは、gpt2-chatbot は ASCII 画像の描画が非常に得意で、あらゆる種類の形状を処理できることです🤌。 下の「ユニコーン」の写真を見てください。まさに完璧です。 gpt2-chatbot が描いたユニコーンでさえ、クロード・オプスの最強バージョンを倒しました。 ネットユーザーBaoyuはgpt2-chatbotを使用して多くの視覚イメージを描きました。 たとえば、下のかわいい子犬を見てください。 より複雑な「ドラゴン」も非常に上手に描かれています。 GPT2-Chatbot は、制御システムを正確にマッピングする方法も知っています… 5. GPT-4を破るコードを書く一部のネットユーザーが試したコードスニペットでは、2回の試行後、gpt2-chat は GPT-4 よりも優れたパフォーマンスを発揮しました。 ぜひご自身で感じてみてください... 6. 最も難しいIMOテスト問題を克服し、正解したのはわずか4人の生徒でした別のネットユーザーが IMO の質問をテストしたところ、gpt2-chatbot が 1 つのサンプルのみを使用して IMO の質問に正しく回答したことが分かりました。 この問題にうまく挑戦できたアメリカ人学生はわずか 4 人だったことは特筆に値します。 7. 英語の慣用句をハンガリー語に翻訳するネットユーザーの中には、gpt2-chatbot に英語の慣用句 50 個をハンガリー語に翻訳するよう依頼した人もいました。 gpt2-chatbot の勝率は下の図に示されていますが、すでに非常に高いことがわかります。 まるでその中にイリヤが隠れているかのようでした。 ネットユーザーらは、もしロボットが推論のみを訓練されているのであれば、このタスクはロボットの能力を超えているはずだと述べた。つまり、gpt2-chatbot の翻訳機能はまさに驚異的です。 8. 自己紹介をするネットユーザーはgpt2-chatbotを選択し、自己紹介をするように依頼しました。 驚くべきことに、gpt2-chatbot は GPT-4 アーキテクチャに基づいて構築され、OpenAI によって開発されたと主張しています。 さらに、ネットユーザーたちは同じ質問に対するMicrosoft Phi-3の回答とも比較した。 その結果、gpt2-chatbot によって返される回答の方が良くなります。 誰かが冷や水を浴びせた:これがGPT-4.5なら、ビッグモデルルートは終わりを迎えるだろう もちろん、賞賛の声のなかには疑問の声も存在する。 HyperWriteAI の CEO である Mattt Shumer 氏は、gpt2-chatbot は優れているものの、これが GPT-4.5 であれば非常にがっかりするだろうと述べました。 AIコミュニティの有名人「Jiuyuanke」は、何度かテストした結果、マット・シューマーの見解が正しいことがわかったと語った。 いくつかの回答では、gpt2-chatbot のパフォーマンスは GPT-4 よりもわずかに優れていますが、他の回答では同様のパフォーマンスを発揮します。それだけでなく、回答スタイルも冗長になっています。 GPT-4 は、24 ポイントのゲームを解決するために、より良い解決策なしに、同じブルート フォース メソッドのみを使用します。 彼は率直にこう言いました。「これが GPT-4.5 であれば、大規模モデルの現在の技術的ルートは終わりに近づいています。」 多くのネットユーザーが同意を表明しました。「GPT-4.5だと言っても問題ありませんが、GPT-5だとしたら非常に残念です。」 「GPT-5 なら、これで終わりです。GPT 2+ なら、これで終わりです。」 このモデルが行うことの多くは実際には推論ではなく、他のモデルにはない深い知識を備えているだけだと言う人もいます。 その推論が素晴らしいと言うよりは、不老不死の薬やイギリスの法律など、多くのニッチなテーマに対する理解が素晴らしいと言った方が良いでしょう。 誰かが gpt2-chatbot についての独自の推論とテストをリストしました。 私はリンゴを 12 個持っていて、そのうち 4 個を息子に売り、息子は 3 個を父親に売りました。リンゴは何個ありますか? 答えは「8」です。 どうやら、その理由付けは皆が主張するほど魔法的なものではないようです。 9. サポーター:強い、ASIに近づいている一部の支持者も gpt2-chatbot を強く支持しており、難解なコード変更タスクでテストした結果が優れていると述べています。 このレベルの推論問題を解決できるその推論能力は本当に素晴らしいと言う人もいれば、「私たちはこれまで以上に ASI に近づいているかもしれない」と率直に言う人もいました。 羊と山羊を連れた農夫が、小さなボートを横に置き、川の左岸に立っていました。このボートは、1人と2匹の動物が乗れる大きさです。農夫はどうすれば、最小限の船旅で自分自身と羊や山羊を川の右岸まで運ぶことができるでしょうか? 下の図に示すように、gpt2-chatbot は正しい回答を直接返します。
このレベルの推論問題は、過去にすべての大規模モデルを失敗させる原因となってきました。 gpt2-chatbot は本当に良いようです。 これに続いて、OpenAI Q* テクノロジーと組み合わせた 15 億の GPT-2 アーキテクチャが続くだろうと推測する人もいます。 GPT-4とQ*を組み合わせた方が良いと言う人もいます。 しかし、一部の人々は、独自のテストで GPT-4 よりも弱いことが判明し、心の理論があまり発達していないため、この主張はありそうにないと主張しています。 もしそうだとしたら、がっかりすることになるのは間違いない。しかし、GPT-2+Q*であれば、AGIが近いことを意味します。 gpt2-chatbot はおそらく OpenAI が 2019 年にリリースした GPT-2 であり、その後 LMSYS が最新の補助データセットを使用して微調整したのではないかと推測する人もいます。 この観点から見ると、GPT-2 の初期の事前トレーニングが今日でも驚異的で、4 年後にリリースされた多くのモデルよりも優れているのは驚くべきことです。 最後に、いつものように、イリヤは魂を問うような質問を受けました。AGI は本当に来るのでしょうか? 参考文献: https://twitter.com/lisabdunlap/status/1785051983831040457 https://twitter.com/literallydenis/status/1785032106969649230 https://www.reddit.com/r/singularity/comments/1cg29h3/rumours_about_the_unidentified_gpt2_llm_recently/ https://twitter.com/dotey/status/1785067745765118124 https://twitter.com/AndrewCurran_/status/1784975542028050739 https://twitter.com/marvinvonhagen/status/1785025017681690936 https://twitter.com/mattshumer_/status/1785023540070146521 |
<<: タオバオとJD.comはともに618プロモーション期間中の先行販売を中止:大規模プロモーションは冷却期間に入り始める
>>: インターネット経済の「新しいCポジション」:「ローカルライフ戦争」における新たな課題と勝利戦略
春になると、あらゆるものが活気を取り戻し、ブランド間の春のマーケティング戦争が激化します。この記事で...
アマゾンでは、このアマゾンプラットフォームが越境電子商取引プラットフォームであることは誰もが知ってい...
どの業界や会社でマーケティングに携わっていても、時代の変化が速すぎるという問題に直面するでしょう。 ...
Amazonプラットフォーム上に店舗を開設するマーチャントがますます増えています。Amazonマーチ...
ラザダは欧州市場への参入を準備しているが、ラザダの董正CEOは、具体的な計画は経済発展と市場状況次第...
世界最大の電子商取引プラットフォームの 1 つである Amazon は、多くの販売者に幅広い販売の場...
この記事は、WeChat エコシステムの調整がさまざまなゲームプレイに与える影響を考慮して、パブリッ...
「店頭で買えないわけではないのですが、中古品の方がコストパフォーマンスが良いんです!」中古品サークル...
Amazon プラットフォームが成長を続けるにつれて、ますます多くの人が Amazon でストアを開...
かわいい画像や面白い表現の提示を通じて若者に広く愛される「かわいくて楽しいマーケティング」。 「キュ...
本稿では、ネスレコーヒーが若い消費者の心の中で持つブランド地位の変化を深く分析し、ネスレコーヒーが若...
電子商取引ビジネスは簡単ではありません。特に、越境ビジネスを行う初心者の商人にとっては、学ぶべきこと...
この記事では、小都のポスターや広告が「中年の恋愛」を入り口として、ブランド提案である「友情」の含意を...
Shopeeを作るとき、初心者が最初に学ばなければならない最も重要なことは商品の選択です。迅速に注文...
現在、Shopee に店舗を開設する商人が増えています。Shopee に店舗を開設した後は、店舗のト...