Google DeepMindが目指す「ユニバーサルデジタルアシスタント」とは何か？

Contents

概要

Google DeepMindのCEOデミス・ハサビスは、ポッドキャスト「Possible」で、Gemini AIモデルとVeo動画生成モデルの統合を計画していると発表しました。
この統合により、Geminiの現実世界の理解力が向上するとしています。

ハサビスは、Geminiを最初からマルチモーダル（複数メディア対応）に設計したと説明。
その理由として、現実世界を支援する「ユニバーサルデジタルアシスタント」のビジョンを挙げています。

AI業界では、様々なメディアを理解・生成できる「オムニモデル」がトレンドです。
Googleの最新Geminiは音声・画像・テキストを生成可能で、OpenAIのChatGPTも画像生成をネイティブサポートしています。
Amazonも今年中に「any-to-any」モデルの提供を予定しています。

こうしたオムニモデルには大量の学習データ（動画・音声・テキストなど）が必要です。
ハサビスは、Veoの学習データが主にYouTubeから得られていることを示唆しました。

GoogleはTechCrunchに対し、YouTubeクリエイターとの契約に基づき「一部」のコンテンツを学習に使用「する可能性がある」と説明。
昨年サービス規約を改定し、AI学習用データ活用の範囲を拡大したと報じられています。