スポンサーリンク
Contents
スポンサーリンク
概要
Google DeepMindのCEOデミス・ハサビスは、ポッドキャスト「Possible」で、Gemini AIモデルとVeo動画生成モデルの統合を計画していると発表しました。
この統合により、Geminiの現実世界の理解力が向上するとしています。
ハサビスは、Geminiを最初からマルチモーダル(複数メディア対応)に設計したと説明。
その理由として、現実世界を支援する「ユニバーサルデジタルアシスタント」のビジョンを挙げています。
AI業界では、様々なメディアを理解・生成できる「オムニモデル」がトレンドです。
Googleの最新Geminiは音声・画像・テキストを生成可能で、OpenAIのChatGPTも画像生成をネイティブサポートしています。
Amazonも今年中に「any-to-any」モデルの提供を予定しています。
こうしたオムニモデルには大量の学習データ(動画・音声・テキストなど)が必要です。
ハサビスは、Veoの学習データが主にYouTubeから得られていることを示唆しました。
GoogleはTechCrunchに対し、YouTubeクリエイターとの契約に基づき「一部」のコンテンツを学習に使用「する可能性がある」と説明。
昨年サービス規約を改定し、AI学習用データ活用の範囲を拡大したと報じられています。
ポイント
- Google DeepMindは、Gemini AIモデルとVeo動画生成モデルを統合する計画を発表。
- 新しいGeminiモデルは、音声や画像、テキストを生成し、マルチモーダルな特徴を持つ。
- VeoモデルはYouTube動画を利用して、物理的な理解を深めることを目指している。
詳しい記事の内容はこちらから
参照元について
スポンサーリンク
スポンサーリンク