AI の「子守」になることは、Tianya のような人々にとっての逃げ道なのでしょうか?

AI の「子守」になることは、Tianya のような人々にとっての逃げ道なのでしょうか?

老舗の中国系コミュニティである天家は丸1年「集中治療室」に入院しており、破産は避けられないようだ。しかし、アメリカの同僚がAIエクスプレスに搭乗したという最近のニュースは、天亜に一筋の希望をもたらしました。

昨年4月、天亜コミュニティはデータセンター料金の滞納によりインターネットから「切断」された。

問題はお金が足りないことだ。天亜コミュニティは、この危機は近年の流動性問題の深刻化と通信IDC料金の滞納によって発生し、天亜コミュニティへのアクセス停止につながったと述べた。

次に天亜に関するニュースを聞いたのは、今年2月末、国家企業破産・再編事件情報ネットワークが「天亜コミュニティネットワークテクノロジー株式会社が破産審査の対象になった」という情報を発表したときだった。

天亜は破産寸前の噂を否定しているが、天亜が再び日の目を見る可能性はさらに低い。

米国では、衰退しつつあった古いコンテンツプラットフォームがAIの波に頼って副業を見つけ、大儲けしている。サードパーティの画像ホスティングプラットフォーム「Photobucket」はかつて7000万人のユーザーを抱え、米国のオンライン写真市場のほぼ半分を占めていた。現在、Photobucket は以前ほど人気が​​なく、まだ約 200 万人が使用しているだけです。

諺にもあるように、「痩せたラクダは馬よりも大きい」。ほとんどの人から忘れ去られている Photobucket には、何年もかけて蓄積された何百億もの写真とビデオがまだ残っています。そして、これこそが、「データ飢餓」に苦しむ AI 企業が最も必要としているものなのです。

AIブームの中、当社に依頼してくる企業が増えてきました。現在進行中の交渉の大まかな見積もりに基づくと、Photobucket が保有するコンテンツの価値は数十億ドルに達する可能性がある。

お金はあるがデータが不足している AI 企業が、お金はないが膨大なコンテンツを蓄積している古いコミュニティと取引をしないというのは奇妙なことです。

PhotobucketがAI企業と契約交渉中であるというニュースがロイターによって明らかにされた。

興味深いことに、報告書にはその後の編集で削除された文章があった。「同社は第1四半期の営業利益が10倍の49億ドル近くまで増加すると予想している。」

49億ドルは何を意味するのでしょうか?

画像ホスティング Web サイトとしての Photobucket は、当初は無料でした。 2000 年代に入ると、インターネット ユーザーの数が急増し、人々は自分たちの生活を記録したり共有したりするために専用の Web サイトに写真をアップロードするようになりました。さらに、Photobucket に写真をアップロードした後、MySpace などの他の Web サイトに直接埋め込むことができるため、繰り返しアップロードする手間が省けます。一部の販売者は、Photobucket を使用して eBay または Amazon でホストされている画像も使用します。

このように、ピーク時には、Photobucket は米国のインターネット トラフィックの 2% を占めていました。

Photobucket にとって、無料から有料への移行は避けられない道のようです。しかし、Photobucket は少し焦りすぎました。 2017年、Photobucketは突然、サードパーティディスプレイを年間399ドルの有料サブスクリプションサービスに変更しました。この動きには十分な事前警告がなかったため、多くのユーザーは、他のウェブサイトに埋め込んだ Photobucket 画像が表示されず、代わりに「ロック解除には料金を支払う」よう求められた。

当時、Photobucket にはすでに 1 億人の登録ユーザーがおり、この「アップグレード」ではサードパーティの Web サイトからの約 6,000 万枚の写真が正常に表示できなかったことに注意してください。論争の中、Photobucket は翌年、年間サブスクリプション モデルを月額支払いモデルに変更し、現在までそれが採用されています。

その後、Photobucket は衰退しました。その後数年間、Photpbucket はサービスセンターの停電によるサービス中断やプライバシー漏洩などの「事故」を経験し、徐々に人気の写真ウェブサイトからインターネット上のマイナープロダクトへと変化していった。同社の規模も最盛期の従業員120人から40人に縮小した。

現在、Photobucket が提供する最も高価な有料プランは月額 8 ドルです。最新のレポートによると、Photobucket を使用しているユーザーは 200 万人で、全員が月額 8 ドルを支払ったとしても、年間で 1 億 9,000 万ドルしか寄付できないことになります。これは、ストレージ、メンテナンス、運用などのコストを差し引かない、Photobucket の収入のみです。

Photobucket は過去 20 年間で多くのユーザーを失いましたが、ユーザーがログアウトしない限り、常にユーザーの写真を保持してきました。 Photobucket は無料アカウントのサポートを終了しても、ユーザーに「写真はそのまま残っています。もう一度見るには、今すぐ料金を支払う必要があります」と明確に通知します。

Photobucketを放棄したユーザーはソーシャルメディア上で不満を述べており、Photobucketから和解を求めるメールが頻繁に届き、もう耐えられないと述べている。

写真があり、膨大な量のコンテンツがサーバー上に保存されているので、それらを使ってお金を稼いでみませんか?プラットフォームのコンテンツを AI 企業にライセンス供与して 49 億ドルを稼ぐことは、Photobucket にとって巨額の収入です。

AI 企業が「廃れた製品」である Photobucket を選択するのはなぜでしょうか?

答えは簡単です。データが少なすぎるのです。 OpenAI の GPT シリーズ モデルを例にとると、GPT-3 では 3,000 億トークンが使用され、GPT-4 では 12 兆トークンが使用されました。すでに開発が進んでいるGPT-5に必要なトークンの量は60兆から100兆の間です。

「規模こそすべて」が AI の戦いのスローガンになりました。 2020年、ジョンズ・ホプキンス大学の物理学者ジャレッド・カプラン氏は、学生がより多くの本を読むことでより多くのことを学ぶのと同じように、大規模な言語モデルはトレーニングデータが多いほどパフォーマンスが向上することを示すAIに関する画期的な論文を発表しました。

大規模なモデルの場合、インターネット上で公開されているデータは無尽蔵ではありません。人工知能研究機関のエポック社によると、2026年までに入手可能な高品質なデータはすべて枯渇する可能性があり、インターネットがデータを生成する速度は、拡大し続ける大規模モデルがデータを消費する速度に追いつけない可能性があるという。

「データに飢えた」AI 企業がデータを取得するために取る道筋は、次のように要約できます。無料であれば直接使用します。自分のものである場合は、直接使用し、他の人に使用させないでください。支払える場合は支払いなさい。お金を払っても買えない場合は、必要に応じて入手する方法を考えましょう。

最近、ニューヨークタイムズは、OpenAI が GPT-4 のトレーニングに Google の YouTube のコンテンツを使用したと報じました。直接使用することは絶対にできません。Google が許可しません。そこでOpenAIはアイデアを思いつき、Whisperと呼ばれる音声認識ツールを開発しました。これは、100万時間以上のYouTube動画を書き起こし、それをモデルに入力するものです。

これまで、まだ一般に公開されていないテキスト動画変換ツール「SORA」も、外部から疑惑を招いてきた。インタビューの中で、OpenAIの最高技術責任者であるミラ・ムラティ氏は、「YouTube、Instagram、FacebookなどのプラットフォームのコンテンツがSoraのトレーニングに使用されたかどうか」という質問に直接答えなかった。その質問を聞いたときの彼女の複雑な表情は、インターネットミームにもなった。

YouTubeのCEO、ニール・モハン氏は4月5日に、OpenAIがYouTubeの動画を使ってSoraを訓練したという証拠はないが、もしOpenAIがそうしていたとすれば、それはYouTubeの利用規約の「明らかな違反」になるだろうと反論した。

YouTube がユーザー (またはクリエイター) を保護しようとしていると考えるのは単純すぎるでしょう。モハン氏はインタビューの中で、グーグルが自社の大規模モデル「ジェミニ」のトレーニングにYouTubeのコンテンツをいくつか利用したことにも言及した。

一方、Metaのマーク・ザッカーバーグ氏も、プラットフォームのデータを自社の競争上の優位性だと考えている。ザッカーバーグ氏はかつてこう語った。「我々の戦略の次の重要な部分は、ユニークなデータから学ぶことだ。」 「FacebookやInstagramには、公開されている写真が何千億枚、公開されている動画が何百億枚もある。」

昨年マイクロソフトを激しく批判し、XのデータをAIの訓練に利用したとして訴訟を起こすと脅したイーロン・マスク氏も、Xのプライバシーポリシーをひっそりと更新し、ソーシャルメディアのデータを機械学習とAIモデルの訓練に利用すると述べた。ネットユーザーの質問に対し、マスク氏はただ「訓練には公開情報のみが使用され、プライベートメッセージや個人データは使用されない」と認めた。

膨大な量のUGC(ユーザー生成コンテンツ)を持ち、独自のAIも行っている企業は、データを販売せず、自社のみで使用します。他の AI 企業は、リスクを負って秘密裏にそれを使用するか、コンテンツを持っていてそれを販売する意思のある企業を探す必要があります。

ShutterStock と Reddit はどちらも、データ取引市場で活躍する「大手販売業者」です。

写真ウェブサイトのShutterStockは、OpenAI、Meta、Google、Amazonなど、名前を挙げられるほぼすべての大手AI企業と提携し、それらの企業の写真をAIのトレーニングに使用する契約を結んでいる。各取引の当初価格は2,000万ドルから5,000万ドルの範囲で、その後取引規模は拡大されました。

AIの波が押し寄せる中、アメリカのフォーラムであるRedditは、そのデータがAI企業にとって非常に重要かつ価値があることを認識しています。昨年、Reddit はデータの有料使用の問題について議論するために AIGC のリーダーたちと交渉を開始しました。はっきり言って、料金を支払って許可を得なければ、このアメリカの主要フォーラムのコンテンツを AI に提供することは不可能だ。交渉は徐々に進展してきた。今年2月、RedditはAIのトレーニング用にデータのライセンスをGoogleに供与することで合意した。契約金額は年間約6,000万米ドルです。

このような状況では、Photobucket のような確立されたコミュニティが標的にされるのは時間の問題です。

PhotobucketのCEO、テッド・レナード氏は、130億点のコンテンツ(写真と動画)のライセンスを取得するために複数のテクノロジー企業と交渉中であると述べた。写真ごとのライセンス価格は 5 セントから 1 ドルの範囲ですが、ビデオの場合は 1 ドル以上になります。

ある購入者はレナード氏に、Photobucket が保有している数よりも多くの 10 億本以上のビデオが欲しいと伝えた。現在の交渉によれば、Photobucket は数十億ドル相当のコンテンツを保有していることになる。

一方、Photoshopは昨年10月に利用規約を更新し、AIシステムのトレーニングに使用するためにアップロードされたコンテンツを販売する「無制限の権利」をプラットフォームに付与した。

レナード氏は、データライセンスが同社の広告販売事業に取って代わる可能性があるとさえ述べた。

活発なデータ取引市場は、衰退しつつある、あるいは消滅しつつある UGC プラットフォームに「副業」を提供する可能性があります。

Tianya がどれだけのコンテンツを蓄積してきたかは不明ですが、いくつかのデータからその規模を垣間見ることができます。ピーク時には、天夜の1日の訪問者数は2,000万人に達した。

中華系コミュニティの黄金時代には、「みんなの話題は天雅が作る」という言い伝えがありました。芙蓉姐さん、肖月月さん、鋭い兄さんなど、第一世代のネット有名人の多くがここで生まれました。 『鬼が光を吹き消す』『明朝の事』『東北物語 冥界二十年』『法医秦明』など、多くのベストセラー本がここで生まれました。

AIトレーニングにおける中国のフォーラムの有用性も注目を集めている。

研究によると、Baidu Tiebaの「遅延バー」は優れたデータトレーニング効果を示している。

この研究は、中国科学院深圳先進技術研究所、中国科学院自動化研究所、ウォータールー大学など多くの大学や研究機関が共同で完成し、高品質の中国語ガイド付き最適化データセットを提案しました。この研究では、中国語ガイドの最適化されたデータセットを使用して、さまざまなタイプとサイズのモデルをトレーニングし、さまざまなデータソースがモデルのパフォーマンスに与える影響を調査しました。このテストでは、Baidu Tieba の「Retarded Bar」がかなり高いスコアを獲得しました。

「知的障害者バー」には、知的障害とは実際には関係のない「知的障害者のふり」をして頭を悩ませる発言をする300人の会員が集まっている。たとえば、「高校の入学率が高くないのなら、なぜ大学生を雇わないのか?」または「なぜ両親は私を結婚式に招待してくれなかったのか?」研究者たちは、「これは愚かだ」という質問が AI の論理的推論能力を高めたのではないかと推測している。

これは国家創生とAIの衝突によって生まれた火花です。コミュニティ コンテンツは、予期しない驚きをもたらすことがあります。

しかし、コミュニティ コンテンツと AI の間にはユーザーが存在します。

Photobucket がユーザー規約の更新に忙しいのと同じように、中国のインターネットにおける「コンテンツ権利確認」も常に問題となっている。

一方、中国のインターネットプラットフォームでは、長い間、ユーザー規約に承認規約を埋め込む習慣が形成されてきました。これまでに見つかった2017年のTianyaの「プライバシーと著作権」契約には、次のように記載されています。「ユーザーがこのWebサイトに公開およびアップロードしたすべてのコンテンツについて、このコミュニティは、変更、複製、配布、展示、翻案、編集、出版、翻訳、情報ネットワークの普及、放送、パフォーマンス、および作成法や著作権法などの法律や規制によって定められたその他の権利を含むがこれらに限定されない、世界中のあらゆる形式およびキャリアで使用およびサブライセンスする永久的、取消不能、無料、非独占的な権利を有します。」

天亜が「電源オフ」になった後、インターネットで「天亜の偉大な投稿集」を販売するビジネスが人気を博しました。天亜は再始動の発表の中で、主要プラットフォームでの天亜神台の人気に注目し、「今後は上級会員のグループを育成し、訪問に応じて天亜コミュニティプラットフォーム上に天亜神台の有料エリアを開設する予定だ」と述べていた。

天亜は再開発表の最後に、「『99元の天亜魔法郵便サービス』の予約注文であれ、『299元のワンツーワンデータダウンロードサービス』の予約注文であれ、それは天亜の再開にとって非常に重要な後押しとなる」と述べた。記事の最後には、Tianyaが購入用のQRコードを添付していました。

一方、プラットフォームがAIのトレーニングのためにユーザーコンテンツを他の企業にライセンス供与する権利があるかどうかについては、まだ議論の余地がある。

ユーザーはこれに対してかなり警戒しています。

昨年、Xiaohongshu はユーザー利用規約を更新し、「ユーザーコンテンツおよび情報の許可」で「ユーザーは、xxx 社に、地理的制限なしにコンテンツを使用するための無料、取り消し不能、非独占的なライセンスを付与します」と明記し、「上記のライセンスには、保護された個人の画像、肖像、名前、商標、ブランド、ロゴ、その他のマーケティングおよびプロモーション資料やユーザーコンテンツ内の資料を使用、コピー、表示する権利と許可が含まれます」としました。また、当時、一部のイラストレーターはAIツールの盗作疑惑について疑問を呈し、プラットフォームが自分たちのアップロードした作品をAIの訓練に利用するのではないかと懸念を表明した。多くのイラストレーターが公にボイコットし、プラットフォーム上での更新を停止すると発表した。

今日、PhotoBucketのCEOがインタビューを受け、同プラットフォームはAI企業とライセンス契約を結んでいるが、すべてのAI企業が自社のコンテンツに自信を持っているわけではないことを認めた。

Defened.aiのCEOダニエラ・ブラガ氏は、Photobucketのようなプラットフォームからコンテンツを取得することは避け、写真のオリジナルの作成者からライセンスを取得することを好むと述べ、「それは非常に危険だと思います」と語った。 「AIが生成した画像が、許可を与えていない人物の写真に似ているとしたら、それは問題だ」

参考文献:

1. Quantum位:「idiot bar はどのようにして最高の中国 AI トレーニング データになったのか?」中国科学院等:知乎、豆瓣、小紅書を大きく上回り、8つのテストで1位を獲得。

2. 日刊経済ニュース:「天亜コミュニティ再開スケジュール発表。誰が99元を出して「天亜魔法郵便サービス」を買うのか?」

3. TechFox:「設立から23年を経て、数え切れないほどの人々の思い出を背負ってきたコミュニティが閉鎖されてしまいました…」

4. チタンメディア:「チタンメディア独占 | 天亜コミュニティアプリが「復活」、オンラインアプリストアで正常に使用できない、同社は1000万元を調達中」

ブルーホエールファイナンス:「感情は無価値か?「天亜再始動」は「破産の謎」で延期

<<:  最も影響力のあるスキットクリエイターは誰ですか?新邦が「短編演劇クリエイター影響力リスト」を正式に発表

>>:  映画・テレビ業界は「ミニ番組・短編ドラマ不安」に陥っている

推薦する

オリンピック精神:ブランドと夢の共鳴

世界中で注目されたこのスポーツイベントでは、大手ブランドが独自の方法でオリンピック精神を伝え、観客の...

30人以上の最前線のトレーダーと会った後、プライベートドメインに関する20の新しい見解をまとめました

「プライベートドメイン」はトラフィック時代の最もホットなトピックの1つです。本稿では、プライベートド...

パリスプリング百貨店(工場視察)グループの概要

プランタン百貨店グループの概要当百貨店は、ファッション発祥の地、フランス・パリで1865年春に創業し...

Lazada Quanxiaobao の立ち上げの背後にあるアイデアは何ですか?どうやってやるんですか?

Lazadaは比較的よく発達した越境電子商取引プラットフォームです。ここで店舗を開設している商人がた...

ブランド設定 |ブランド創造は設定から​​始まる

ブランド作りをする際には、まず設定から始める必要があります。では、なぜブランディングが必要なのでしょ...

Pinduoduo Temu人形、フィギュア、模型、装飾品の売れ筋リスト

Pinduoduo Temu おもちゃとゲーム > おもちゃのフィギュアと人形セットの主要製品...

上海スーパーネットワークはETIの義務について説明している

ETI は、企業、労働組合、非政府組織の 3 つの代表者で構成されています。 ETI 基本コードは ...

Shein からの急ぎの注文はすべて 3 時間かかりますか? SHEINの配送ルールは何ですか?

オンラインショッピングの人気が高まるにつれ、迅速な配送サービスに対する期待が高まっています。この記事...

醤油ラテ、それだけ?

醤油ラテが人気です!この話題の人気は海外にも広がり、ラッキンコーヒーのマーケティング戦略は再び話題と...

ブランドNo.1: 王山莊は3つのことを正しく行うことで7億元を稼いだ

好王水ブランドは「貪欲なし、後退なし、慢心なし」を基本理念とし、スター商品「王山茶」を独創的に生み出...

越境電子商取引でシンガポールで販売するのに適したものは何ですか?商品の選び方は?

越境ECプラットフォームで店舗を開くときに最初にすべきことは、良い場所を選ぶことです。シンガポールは...

ヒットドラマで長編動画を観る:時代の空気を逆手に取った業界の「復活」は?

本稿では、長編映像業界がいかに時代の空気を掴み、視聴者の共感を呼ぶヒットドラマを生み出すことができる...

Shopee の最低価格保証とは何ですか?最低価格保証に参加するにはどうすればいいですか?

Shopee の最低価格保証とは何ですか? 最低価格保証に参加するにはどうすればいいですか? この記...

YouTubeにアクセスするにはどうすればいいですか?方法は何ですか?

今日のデジタル時代において、YouTube は世界最大の動画共有プラットフォームの 1 つになりまし...

ブティック戦略を発表した後、iQiyi、Youku、Tencent Videoはヒット作を見つけるのに困難な夏を迎えた。

iQiyiとYouku Tencent Videoはヒット作を見つけるのに苦労しており、テレビシリ...