AI作曲システムが商用水準に迫る
中国の研究チームが発表したAI楽曲生成システム「LeVo 2」が、専門家による聴取評価で商用サービスに匹敵する品質を達成した。音楽制作コストの大幅削減と、広告・ゲーム・映像産業のコンテンツ制作工程の再編につながる可能性がある。

研究の概要
LeVo 2は、歌詞とテキストプロンプトを入力として、ボーカルと伴奏を含むフルレングスの楽曲を自動生成するAIシステムである。深セン大学などの研究チームが開発し、論文プレプリントサーバー「arXiv」に公開した。
従来の言語モデルベースの楽曲生成システムは、「混合トークン方式」と「デュアルトラック方式」の間で構造的なトレードオフを抱えていた。前者はボーカルと楽器の協調性を保つが音響の細部が失われ、後者は音響品質を高めるものの処理が長大になり全体の構成力が低下する課題があった。
LeVo 2はこの問題を階層的モデリングによって解決する。独自開発の大規模言語モデル「LeLM」が最初に楽曲全体のセマンティックな計画を担い、次にボーカルと伴奏のトークンを並列で予測して音響品質を高める。最終的に拡散モデルベースの音楽コーデックが完全な音声波形を生成する三段構造を採用している。
さらに本システムは、音楽の審美的品質を自動評価するフレームワークを構築し、大規模データに「音楽性スコア」を付与したうえで段階的な後学習(SFT、オフラインDPO、セミオンラインDPO)を適用した。この設計により、音楽性・制御性・音響品質の学習を分離して最適化し、各要素の干渉を抑制することに成功している。専門家による6つの主観的評価指標において、既存のオープンソースシステムを上回り、主要商用サービスに複数の指標で匹敵する結果を示した。
ビジネスへの示唆
本技術が実用化された場合、影響を受ける産業と業務領域は広範にわたる。
- 広告・マーケティング部門:テレビCMやデジタル広告向けのBGM制作を内製化できる。外部の音楽制作会社への発注費用(一般的に数十万〜数百万円規模)を大幅に削減し、制作リードタイムも短縮できる。
- ゲーム・エンターテインメント企業:インゲームBGMやキャラクターボイスを伴う楽曲を歌詞指定で量産でき、コンテンツ更新頻度をKPIに設定する運営型ゲームにとって直接的なコスト優位性をもたらす。
- 動画配信・ストリーミングプラットフォーム:ユーザー生成コンテンツ(UGC)向けの著作権フリー楽曲ライブラリを自動拡充でき、ライセンス料の削減と権利管理の簡素化が見込まれる。
- 音楽レーベル・プロダクション:デモ楽曲制作の初期コストを下げ、アーティスト開発段階の試作回数を増やすことが可能となる。
一方で、既存の楽曲制作受託市場への構造的な打撃も予想される。特に中小規模の音楽プロダクションや、BGM制作を主業とするフリーランス作曲家は、サービスの差別化戦略を迫られる可能性がある。
今後の展望
LeVo 2はオープンソースベースラインを大きく上回る性能を示したが、論文によれば主要商用システムへの完全な追随には一部の指標で課題が残るとされている。研究チームは今後、制御性のさらなる向上と多言語対応の拡張を示唆しており、日本語歌詞への対応が実現すれば、日本のアニメ・ゲーム産業を中心に需要が急拡大する可能性がある。
自動音楽審美評価フレームワークの手法は、楽曲生成にとどまらず、既存楽曲ライブラリの品質スコアリングや音楽配信プラットフォームのレコメンドエンジン改善にも応用できる点で、技術的な波及効果は大きい。企業各社は、本技術の商用ライセンス動向と、著作権の帰属に関する法的論点を注視する必要がある。
関連トピック
同セクションの記事
動画編集AI「Goku」、200万件データで精度8%向上
中国科学技術大学らの研究チームが、200万件の高品質動画編集ペアを含む大規模データセット「Goku」を公開した。指示ベースの動画編集精度が最大8%向上し、映像制作・広告・EC業界のコンテンツ制作コスト削減に直結する可能性がある。

表情認識AIが進化、感情分析に新手法
ViTベースの動画モデルに追加学習なしで組み込める表情認識フレームワーク「MiRA」が発表された。小売・金融・医療など感情データを業績指標に連動させる企業に直接影響を与える技術革新である。

AI画像生成の精度向上技術、DEFARが登場
清華大学らの研究チームが、生成AIの推論精度を自己修正するフレームワーク「DEFAR」を発表した。学習と推論の乖離という構造的欠陥を内部信号だけで補正し、高品質な画像生成の安定性と拡張性を大幅に高める。
