アクセント誤り検出AIで音声品質評価が刷新
LYコーポレーションの研究チームが、日本語のピッチアクセント誤りを自動検出する音声品質評価モデル「PASQA」を開発した。音声合成技術の品質管理コストを大幅に削減できる可能性があり、音声AI産業に広範な影響を与えるとみられる。

LYコーポレーションの川村雅也氏ら研究チームは、日本語音声合成システムにおけるピッチアクセント誤りを精密に検出・評価する機械学習モデル「PASQA(Pitch-Accent-focused Speech Quality Assessment)」を開発し、論文として公開した。従来の音声品質評価手法では捉えきれなかった局所的なアクセント誤りを定量化できる点が最大の特徴である。
従来の音声品質評価では、MOS(Mean Opinion Score)と呼ばれる人間の聴取評価の平均値を予測するモデルが主流であった。しかしこの手法は発話全体の自然さを一つの数値で表すため、特定の音節でアクセントが崩れる局所的な誤りを見逃しやすいという課題があった。日本語はピッチアクセントの高低パターンが意味の弁別に直結する言語であり、「橋(はし)」と「箸(はし)」のようにアクセント型が異なると意味が変わる語が多数存在する。音声合成システムがこうした誤りを含んでいても、従来の評価指標では高スコアを示すケースがあった。
PASQAはこの問題を解決するため、アクセント誤り率から算出した疑似アクセント品質スコアを教師データとして活用する独自の学習手法を採用した。アクセント制御可能なテキスト音声変換システムを用いてアクセントパターンを意図的に変化させた日本語データセットを構築し、誤りの深刻度に応じた順序関係を正確に学習させている。さらに、自己教師あり学習表現を基盤とし、モーラ単位の融合処理、ランキング損失関数、補助タスクとしてのアクセント誤り位置推定、話者非依存学習を組み合わせることで、未知話者への汎化性能も確保した。実験では従来モデルがアクセント誤りの深刻度順序の保持に失敗する一方、PASQAは既知・未知の両話者において高い順序付け精度を達成し、人間のアクセント正確性判断とも高い一致率を示した。
この技術が事業に与える影響は複数の産業にわたる。まず最も直接的な恩恵を受けるのは音声合成サービスを開発・運用するテクノロジー企業の音声AI開発部門である。ナビゲーションシステム、スマートスピーカー、自動アナウンスシステムなどに搭載される音声合成エンジンの品質保証工程において、現状は専門の日本語アクセント評価者による人手チェックが不可欠であった。PASQAを品質管理パイプラインに組み込むことで、人手評価の工数削減と評価サイクルの短縮が期待でき、開発スループットの向上という形でKPIに直結する。
eラーニング・語学教育分野においても応用範囲が広い。日本語学習者向けの発音矯正アプリや、外国語スピーキング練習ツールでは、学習者の発話を自動評価してフィードバックを返す機能が重要な差別化要素となっている。アクセント誤り位置の特定機能を活用すれば、「3音節目のアクセントが誤っている」といった具体的なフィードバックを提供でき、ユーザーの学習効率向上と継続率改善につながる。
コンタクトセンター向けの音声自動応答システムを開発・提供する企業にとっても見逃せない技術である。自動音声応答(IVR)システムや音声ガイダンスのアクセント品質は顧客満足度(CSAT)に影響するが、全音声コンテンツを人手で点検する体制の維持はコスト面で現実的でない。自動評価ツールとして導入すれば、品質保証コストを抑制しながら音声品質の水準を維持できる。
今後は日本語以外のピッチアクセント言語への応用展開が課題となる。中国語(声調言語)やスウェーデン語など、音の高低が意味に関わる言語は複数存在しており、同様のアプローチが有効に機能するか検証が求められる。コードはGitHubで公開されており、産学連携による実用化研究の加速も見込まれる。