第二言語習得AIモデル「Dango」が登場
京都大学らの研究チームが日本語母語話者の英語習得過程を模倣する大規模言語モデル「Dango」を公開した。語学教育テクノロジー産業や企業内人材育成に応用可能な基盤技術として注目される。

京都大学を中心とする研究チームは、第二言語習得(SLA)の計算論的研究を目的とした18億パラメータの大規模言語モデル「Dango」を開発し、arXivにて論文を公開した。同モデルは日本語(L1)を母語とする学習者が英語(L2)を習得する過程を制御された環境下で再現することに特化している。
従来のSLA研究では、規模の小さいモデルや生成能力に制限のある非デコーダ型モデルが主流であったため、自由記述形式のテキスト生成には不向きであった。Dangoはこの制約を克服するため、日本語単言語コーパスによる事前学習時に英語データが混入する「L2汚染」問題を独自のフィルタリング手法で解決し、その後LLMが生成した英語学習教材で追加学習を行うことで、人間の学習者に類似した英語誤用パターンの再現に成功した。評価実験では、フィルタリングなしのモデルや標準的な多言語モデルを上回る性能を示した。モデル・データ・コードはすべて公開されており、再現可能な研究と学習者向け応用の両面での活用が期待される。
ビジネス応用の観点では、まず語学教育テクノロジー(EdTech)企業への影響が大きい。英会話アプリや学習管理システム(LMS)を提供する事業者は、Dangoのような習得段階模倣モデルを活用することで、学習者の典型的な誤りを事前に予測し、個別最適化されたフィードバック機能を設計できる。学習継続率(リテンション率)や習熟度到達速度といったKPIの改善に直結する技術基盤となりうる。
次に、グローバル展開を進める製造業・商社・金融機関の人材開発部門にとっても実用的な意義がある。海外赴任者や外資系企業との折衝を担う人材の英語研修において、日本語母語話者が犯しやすい誤用パターンをAIが精緻に模擬できれば、ロールプレイング訓練の質を高めることが可能となる。研修コストの削減と英語運用能力試験(TOEICスコア等)の向上を同時に追求する人事部門にとって、導入検討に値する。
さらに、翻訳・通訳支援ツールや日本語話者向け文章校正サービスを開発するソフトウェアベンダーも恩恵を受ける可能性がある。日本語母語話者特有の英文誤用を高精度で検出・修正する機能は、製品差別化の要素となり、法人向けSaaSの解約率(チャーンレート)低下に寄与する。
一方、技術的な課題も残る。Dangoは現時点で日本語から英語への転移のみを対象としており、他言語ペアへの拡張には追加の研究開発が必要である。また、計算資源の確保とモデルの商用利用に際したライセンス条件の確認も事業化を検討する企業にとっての留意点となる。
第二言語習得の計算モデル化は学術的な新興分野であるが、EdTech市場の拡大と企業のグローバル人材需要の高まりを背景に、産業応用への移行が加速するとみられる。Dangoの公開は、研究機関と企業の連携を促す触媒となる可能性を秘めている。