AI音声合成、複数話者の自然な会話シーン生成に成功
イスラエルの研究チームが開発した「ScenA」は、複数の話者音声を参照するだけで、環境音や重複発話を含むリアルな会話シーンを自動生成する。コンテンツ制作コストの大幅削減が見込まれる。

イスラエルの研究者らが開発した音声生成システム「ScenA」が、多話者対話の音響シーン生成において従来技術を上回る性能を示した。テキストプロンプトと複数の参照音声を入力とするだけで、背景雑音、室内音響、重複する発話、笑い声などの感情表現を含む自然な会話音声を生成できる点が特徴である。
これまでの多話者音声合成システムは、発話ごとに話者タグを付与したり、複数音声ストリームを個別に管理したりする構造化された入力を必要としていた。また、生成される音声はスタジオ収録に近いクリーンな音声に限られ、現実の会話に付随する環境音や偶発的な音声イベントを再現することが困難であった。ScenAはフローマッチングと呼ばれる生成モデルの基盤技術を活用し、大規模な実世界音声データで事前学習したモデルに複数話者の制御機能を付加することで、この制約を克服した。
開発過程で研究チームは「リファレンスショートカット」と呼ぶ重大な問題を発見した。標準的な学習手順では、モデルが参照音声と生成対象音声の音響的類似性だけを手がかりにして話者を識別し、テキストプロンプトの意味的な内容を無視する近道学習が発生する。これを防ぐため、学習時のノイズスケジュールを高ノイズ側に偏らせる手法を導入し、モデルがテキスト情報に基づいて話者を適切に割り当てるよう誘導することに成功した。
この技術が実用化された場合、最も直接的な恩恵を受けるのはコンテンツ制作産業である。ポッドキャスト、オーディオブック、ゲーム向け音声コンテンツの制作現場では、複数の声優をスタジオに集めて収録する工程が制作費の大きな割合を占める。ScenAを活用すれば、出演者の参照音声サンプルと脚本のテキストを入力するだけで収録を代替できる可能性があり、制作コストの削減や納期の短縮が期待される。制作会社にとっては、音声コンテンツ一本あたりの制作時間という主要なKPIに直接影響する技術となる。
広告・マーケティング業界でも応用範囲は広い。現在、多言語・多地域向けの音声広告を制作する際には、各市場の言語や方言に対応した複数の声優への個別依頼が必要であった。本技術を活用すれば、一度収録した声優の音声を参照データとして用い、別言語や別シナリオの広告音声を自動生成する工程が現実味を帯びる。広告代理店のクリエイティブ部門では、バリエーション展開にかかる工数削減というKPIで効果測定が可能となる。
カスタマーサポートや社内教育分野においても活用が見込まれる。複数の担当者が登場するロールプレイ形式の研修コンテンツや、実際の顧客対話を模したシミュレーション音声を低コストで量産できれば、人事・研修部門における教材制作費の削減と更新頻度の向上に寄与する。コンタクトセンターを抱える金融機関や通信企業にとって、研修教材の年間制作コストという観点でインパクトは小さくない。
ただし商用展開に向けては複数の課題が残る。参照音声を無断で利用した声優・著名人の音声複製といった権利侵害のリスクは、法務部門が慎重に検討すべき問題である。また、生成音声を悪用したなりすましやディープフェイク音声への転用防止策の整備も不可欠となる。各国で整備が進む生成AIに関する規制動向を注視しながら、利用規約や技術的なガードレールの設計が求められる。
研究チームはCoVoMix2-Dialogueベンチマークにおいて既存システムを上回る話者識別精度を確認しており、技術的な完成度は着実に高まっている。音声コンテンツ市場のデジタル化が加速する中、多話者音声生成技術の産業応用は今後数年で具体的な事業化フェーズに入ると見られる。