AI

Google DeepMindが目指す「ユニバーサルデジタルアシスタント」とは何か?

概要

Google DeepMindのCEOデミス・ハサビスは、ポッドキャスト「Possible」で、Gemini AIモデルとVeo動画生成モデルの統合を計画していると発表しました。
この統合により、Geminiの現実世界の理解力が向上するとしています。

ハサビスは、Geminiを最初からマルチモーダル(複数メディア対応)に設計したと説明。
その理由として、現実世界を支援する「ユニバーサルデジタルアシスタント」のビジョンを挙げています。

AI業界では、様々なメディアを理解・生成できる「オムニモデル」がトレンドです。
Googleの最新Geminiは音声・画像・テキストを生成可能で、OpenAIのChatGPTも画像生成をネイティブサポートしています。
Amazonも今年中に「any-to-any」モデルの提供を予定しています。

こうしたオムニモデルには大量の学習データ(動画・音声・テキストなど)が必要です。
ハサビスは、Veoの学習データが主にYouTubeから得られていることを示唆しました。

GoogleはTechCrunchに対し、YouTubeクリエイターとの契約に基づき「一部」のコンテンツを学習に使用「する可能性がある」と説明。
昨年サービス規約を改定し、AI学習用データ活用の範囲を拡大したと報じられています。

ポイント

  1. Google DeepMindは、Gemini AIモデルとVeo動画生成モデルを統合する計画を発表。
  2. 新しいGeminiモデルは、音声や画像、テキストを生成し、マルチモーダルな特徴を持つ。
  3. VeoモデルはYouTube動画を利用して、物理的な理解を深めることを目指している。

詳しい記事の内容はこちらから

参照元について