OpenAIの音声クローン技術「Voice Engine」の公開が遅れる理由とは何か？

Contents

概要

OpenAIは2024年3月に「Voice Engine」と呼ばれるAIサービスの小規模プレビューを発表しました。

このツールは、わずか15秒の音声から個人の声をクローンすることができるとされていますが、現在もプレビュー段階から抜け出す気配は見せていません。

OpenAIのサービス展開の遅れは、誤用の懸念や規制の注意を避ける努力を反映している可能性があります。

同社は、限られた「信頼できるパートナー」とのテストを継続しており、多様な用途から学んで技術の改良を目指しています。

Voice Engineは、OpenAIのテキスト・トゥ・スピーチAPIやChatGPTの音声モードを駆動し、元の話者に非常に似た自然な音声を生成します。

OpenAIはこの技術が多くの用途に使われる可能性を示しており、特に障害者支援や言語学習などでの利用を期待しています。

元々2024年3月に広範囲にリリースされる予定でしたが、発表は延期され、限られた開発者への提供にとどまっています。

さらに、Voice Engineは音声認証システムの構築計画や、著名人に似た声の生成を防ぐための措置も考えられています。

声のクローン技術は詐欺や深刻なセキュリティ問題に繋がる可能性があり、OpenAIはこのリスクを軽減するために慎重に考慮しています。

結局のところ、Voice Engineがリリースされるかどうかは分からず、長期にわたるプレビューはOpenAIの歴史の中でも最も長いものとなっています。