Nvidiaはオムニバース、自律走行車、デジタルアバタープラットフォームで使用するAIモデルを訓練するために、何百万ものYouTube動画、Netflix、その他の情報源を使用
2024/08/06

Nvidiaはオムニバース、自律走行車、デジタルアバタープラットフォームで使用するAIモデルを訓練するために、何百万ものYouTube動画、Netflix、その他の情報源を使用としていて、どのような事を毎日やっているのかというものですね。
スプレッドシート、電子メール、チャットメッセージなどを含むリークされた文書によると、Nvidiaはオムニバース、自律走行車、デジタルアバタープラットフォームで使用するAIモデルを訓練するために、何百万ものYouTube動画、Netflix、その他の情報源を使用していた。
データスクレイピングの驚くべき、しかしおそらく驚くことではない範囲は、ドキュメントを調査した404 Mediaによって報告された。コードネーム『Cosmos』(同じ名前だが、Nvidiaのディープラーニングサービス『Cosmos Deep Learning』とは異なる)と呼ばれる社内プロジェクトで、スタッフがAmazon Web Service(AWS)上の数十台の仮想PCを使って1日あたり非常に多くの動画をダウンロードしており、Nvidiaは1ヶ月の間に3000万以上のURLを蓄積していたことがわかった。
著作権法や使用権については、従業員によって繰り返し議論され、直接的な侵害を防ぐための工夫が凝らされていた。例えば、動画を直接ダウンロードすることは利用規約で認められていないため、NvidiaはYouTube-8MのデータセットをダウンロードするためにGoogleのクラウドサービスを利用した。
流出したSlackチャンネルのディスカッションでは、ある人物が『事前にGoogle/YouTubeとダウンロードをクリアし、Google Cloudを使ってダウンロードするというニンジンをぶら下げた』と発言している。結局のところ、通常、800万本の動画に対して、彼らはトレーニングのためにダウンロードする際に失う収益である広告インプレッションをたくさん得ることになる。
404 MediaはNvidiaに対し、AIトレーニングに著作権保護された素材を使用することの法的・倫理的側面についてコメントを求めたところ、同社は 『著作権法の文言と精神を完全に遵守している 』と回答した。
いくつかのデータセットでは、その使用は学術目的でのみ許可されており、Nvidiaはかなりの量の研究(社内および他の機関との共同研究)を行っているが、流出した資料は、このデータスクレイピングが商業目的であったことを明確に示している。
もちろん、このようなことを行っているのはNvidiaだけではありません。OpenAIとRunwayはどちらも、AIモデルを訓練するために著作権で保護された素材を故意に使用したとして告発されています。興味深いことに、Nvidiaが何の問題もなく使用していると思われるビデオコンテンツのソースの1つは、同社のGeForce Nowサービスからのゲームプレイ映像だが、リークされた文書はそうではないことを示している。
Nvidiaのシニア・リサーチ・サイエンティストは、その理由を他の従業員に説明した。『というのも、インフラスはまだ、たくさんのゲーム実況動画やアクションをキャプチャできるようにはセットアップされていないからです。エンジニアリングと規制の両方のハードルがあります』
AIモデルは何十億ものデータポイントでトレーニングされなければならず、これを回避する方法はない。データセットの中には、その使用に関して非常に明確なルールがあるものもあれば、かなり緩やかな制限しかないものもある。しかし、著作物の使用に関する法律に関しては、AIのトレーニングへの適用が100%透明でないとしても、何ができて何ができないかは非常に明確である。
映像コンテンツには個人情報が含まれることが多いため、著作権だけの問題ではない。米国では、直接適用される単一の連邦法はありませんが、個人データの収集と使用に関する規制は数多くあります。EUでは、一般データ保護規則(GPDR)が、EU域外であってもそのようなデータをどのように使用できるかについて明確に規定した法律である。
また、Nvidiaのような企業がAIモデルのトレーニング中に様々な規制に違反していることが発覚した場合、どうなるのだろうかと考える人もいるかもしれない。もしそのシステムが世界中で使用されているとしたら、特定の国ではブロックされるのだろうか?システムを『訓練解除』して、法的に準拠したデータで新たに始めることは可能なのだろうか?
AIについてどう思うかは別として、特に著作権で保護された個人データを商業目的で使用する場合には、透明性を高めるための取り組みが急務であることは明らかだ。なぜなら、テック企業が責任を負わなければ、データスクレイピングは場当たり的に続けられるからだ。
関連リンク
関連リンク
著作権という大きな壁がありますが、それをどうクリアするかということが求められる部分になりそうですね。その辺は曖昧な部分があれば、今後議論されていくことになりそうで、今後の動向次第ですね。