AI×経営戦略

X字型AI、推論コスト22%削減

MITとIBMの研究チームが開発した「><former」は、層ごとに幅を変える新設計でLLMの計算量を22%削減する。クラウドAI基盤を運営する企業にとってコスト構造の抜本的見直しを迫る成果である。

X字型AI、推論コスト22%削減
広告

MITとIBMリサーチの研究チームは、大規模言語モデル(LLM)のアーキテクチャ設計に関する新手法を発表した。従来のトランスフォーマーが全層で同一の幅(隠れ次元数)を維持するのに対し、提案手法「><former(クロスフォーマー)」は入力層と出力層を幅広く、中間層を狭くするX字型の構造を採用する。

アーキテクチャの核心は「非均一容量配分」にある。ニューラルネットワークの各層が担う計算的役割は均質ではなく、初期層と後期層が中間層より高い表現能力を必要とするという経験的知見に基づく設計だ。パラメータを追加せずに層間の次元変換を行う「パラメータフリー残差リサイジング機構」を組み合わせることで、従来モデルとパラメータ数を合わせながら性能を上回ることを確認した。

実験は2億から20億パラメータの密結合モデルおよび30億パラメータの混合エキスパート(MoE)モデルで実施され、いずれも同パラメータ数の均一幅ベースラインを言語モデリング損失で上回った。スケーリング曲線の適合分析では、同等の性能を達成するために必要なFLOPs(浮動小数点演算数)が22%削減されることが示されている。加えて推論時のKVキャッシュメモリおよびI/Oコストも15%削減される。

この成果がビジネスに与える影響は多岐にわたる。最も直接的な恩恵を受けるのはクラウドサービス事業者のAIインフラ部門である。GPT系やClaude系のAPIを大規模提供する事業者は、GPU時間当たりのトークン処理数を示す「推論スループット」をKPIとして管理しているが、FLOPs削減はそのまま同一ハードウェアでの処理能力向上に直結する。データセンター投資の回収期間短縮にも寄与するため、設備投資計画の前提条件が変わる可能性がある。

製造業や金融業においても影響は無視できない。社内AIシステムをオンプレミスで運用する企業では、サーバー調達コストの削減が見込める。金融機関のリスク管理部門が導入するリアルタイム審査モデルや、製造業の品質検査AIでは推論レイテンシが直接業務KPIに影響する。KVキャッシュの15%削減は長文コンテキストを扱うユースケース、例えばコールセンターの会話履歴分析や法務部門の契約書レビューAIにおいて、1リクエストあたりのメモリコストを下げる効果がある。

ヘルスケア分野では、電子カルテの解析や創薬支援に用いる大規模モデルの運用コスト削減につながる。医療AIにおいては規制対応のためにモデルをオンプレミス環境に置く要件が強いため、ハードウェア効率の改善は導入障壁の引き下げに直結する。

研究チームはアーキテクチャの詳細と実験データを論文として公開しており、オープンソース実装への展開が見込まれる。ただし実用化に際しては既存の学習パイプラインとの統合コストや、ファインチューニング時の挙動検証が課題として残る。LLM開発を内製化する企業のMLエンジニアリング部門は、次期モデル設計の選択肢として本手法の評価を検討すべき段階に入っている。

出典: Variable-Width Transformers, Zhaofeng Wu, Oliver Sieberling, Shawn Tan, Rameswar Panda, Yury Polyanskiy, Yoon Kim, arXiv:2606.18246v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告