AI

ElevenLabsが新たに音声認識モデル「Scribe」を発表、99言語に対応した革新技術とは

概要

ElevenLabsは、1億8000万ドルの資金調達を行ったAIスタートアップで、音声生成技術で知られています。

同社は初のスタンドアロン音声認識モデル「Scribe」を発表し、音声検出分野に進出しました。

評価額33億ドルのこの企業は、豊富な音声ライブラリを活用し、他社に音声認識サービスを提供してきましたが、GladiaやOpenAIのWhisperなどと競争する意向を示しています。

Scribeは99以上の言語をサポートし、25言語以上で5%未満の単語誤り率を達成しています。

英語の精度は97%とされ、フランス語やドイツ語、日本語なども高精度で認識可能です。

同社は、Google Gemini 2.0 FlashやWhisper Large V3をFLEURSおよびCommon Voiceのベンチマークテストで上回ったと報告しています。

CEOのマティ・スタニゼフスキ氏は、音声認識モデルの改善に取り組んでおり、データの注釈付けを行う社内チームを持つことで、より良いモデルを構築できると述べています。

Scribeは、話者の識別や正確な字幕のためのタイムスタンプ、観客の笑い声などの自動タグ付け機能を備えています。

現在、Scribeは録音された音声にのみ対応しており、リアルタイム版も近日中にリリース予定です。

価格は1時間の音声転写で0.40ドルと競争力がありますが、他社はより低価格で提供している場合もあります。

ポイント

  1. ElevenLabsは新たに音声認識モデル「Scribe」を発表し、99言語をサポート。
  2. Scribeは複数言語で高精度を誇り、Google GeminiやWhisperと比較して優れた性能を示す。
  3. 同社は競争力を高めるために、リアルタイムバージョンの開発を計画している。

詳しい記事の内容はこちらから

参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。 記事を読む際の参考にし...
ビジネス・経済 最新情報
ゲーム 最新情報