スポンサーリンク
Contents
スポンサーリンク
概要
ElevenLabsは、1億8000万ドルの資金調達を行ったAIスタートアップで、音声生成技術で知られています。
同社は初のスタンドアロン音声認識モデル「Scribe」を発表し、音声検出分野に進出しました。
評価額33億ドルのこの企業は、豊富な音声ライブラリを活用し、他社に音声認識サービスを提供してきましたが、GladiaやOpenAIのWhisperなどと競争する意向を示しています。
Scribeは99以上の言語をサポートし、25言語以上で5%未満の単語誤り率を達成しています。
英語の精度は97%とされ、フランス語やドイツ語、日本語なども高精度で認識可能です。
同社は、Google Gemini 2.0 FlashやWhisper Large V3をFLEURSおよびCommon Voiceのベンチマークテストで上回ったと報告しています。
CEOのマティ・スタニゼフスキ氏は、音声認識モデルの改善に取り組んでおり、データの注釈付けを行う社内チームを持つことで、より良いモデルを構築できると述べています。
Scribeは、話者の識別や正確な字幕のためのタイムスタンプ、観客の笑い声などの自動タグ付け機能を備えています。
現在、Scribeは録音された音声にのみ対応しており、リアルタイム版も近日中にリリース予定です。
価格は1時間の音声転写で0.40ドルと競争力がありますが、他社はより低価格で提供している場合もあります。
ポイント
- ElevenLabsは新たに音声認識モデル「Scribe」を発表し、99言語をサポート。
- Scribeは複数言語で高精度を誇り、Google GeminiやWhisperと比較して優れた性能を示す。
- 同社は競争力を高めるために、リアルタイムバージョンの開発を計画している。
詳しい記事の内容はこちらから
参照元について

『TechCrunch』のプロフィールと信ぴょう性についてここでは『TechCrunch』の簡単なプロフィール紹介と発信する情報の信ぴょう性についてまとめています。
記事を読む際の参考にし...
スポンサーリンク
スポンサーリンク