LLM訓練コストを削減、UFP4手法が登場
米研究チームが4ビット浮動小数点演算によるLLM事前学習の根本的欠陥を解明し、改良手法「UFP4」を提案した。大規模モデル訓練のコストと消費電力を大幅に低減できる可能性があり、AI投資を加速する企業の競争力に直結する。

大規模言語モデル(LLM)の事前学習においてコスト削減の鍵とされてきたFP4演算に、根本的な精度劣化の原因が存在することを、複数の研究者が明らかにした。論文では、この欠陥を「シュリンケージバイアス」と定義し、その発生メカニズムを幾何学的に説明した上で、問題を回避する新たな学習レシピ「UFP4」を提案している。
FP4とは1つの数値を4ビットで表現する低精度演算方式であり、通常使われるBF16(16ビット)と比較してメモリ使用量と演算量を大幅に削減できる。NVIDIAのBlackwellアーキテクチャやAMDのMI350シリーズなど最新GPU世代が対応を進めており、業界の注目度は高い。しかし現行の主流フォーマットE2M1は、表現可能な数値の間隔が不均一なため、数値が丸め処理のたびに体系的に負の方向へずれるシュリンケージバイアスが生じる。この誤差はモデルの層をまたいで乗算的に蓄積するため、パラメータ規模が大きくなるほど学習の不安定化を招く。
研究チームはさらに、量子化品質を高める目的で広く採用されている「ランダムアダマール変換(RHT)」が、E2M1フォーマットと組み合わせた場合にバイアスを増幅させるという逆効果を実証した。一方、数値間隔が均一なE1M2またはINT4形式のグリッドではこの問題が発生しない。UFP4はRHTを全ての行列積演算(GEMM)に適用しつつ、確率的丸め処理を勾配の一部に限定することで安定性と精度を両立する設計となっている。1.5億パラメータの密なモデルから1240億パラメータのMoEモデルまで複数の長期学習実験において、既存のE2M1ベースの手法より一貫してBF16比の損失劣化が小さいことを確認した。
ビジネスへの影響は複数の産業にわたる。クラウドサービス事業者にとっては、GPU稼働時間あたりの学習処理量を高める直接的なインフラコスト削減効果がある。データセンターの電力使用効率(PUE)や1トークンあたりの学習コストといったKPIの改善が見込まれ、特にAWSやMicrosoft Azure、国内ではさくらインターネットやNTTなどのクラウド事業者の設備投資計画に影響を与え得る。
製薬・素材分野では、創薬や新材料探索に向けた独自LLMの開発コストが課題となっているが、UFP4の採用により同一の予算でより大規模なモデルを学習できる可能性がある。研究開発部門のAI予算消化効率が向上し、モデル開発サイクルの短縮が期待される。金融機関においても、リスク管理やトレーディング戦略に用いる専用モデルの学習費用を抑えながら精度を維持できるため、モデル更新頻度を高める判断材料となる。
企業のAI基盤チームが注目すべき点は、UFP4の恩恵を受けるためには対応ハードウェアが必要な点である。研究チームはGPUメーカーに対し、E1M2またはINT4形式の均一4ビットグリッドを学習用プリミティブとして正式にサポートするよう提言している。現時点でE2M1以外の4ビット学習向けハードウェア実装は限定的であり、実用化にはNVIDIAやAMDのソフトウェアスタックとファームウェアの更新が前提となる。調達部門はベンダーのロードマップを注視し、次期GPU世代の仕様確認に組み込む必要がある。
中長期的にはLLMの学習コストが現在の数分の一に圧縮される可能性を示唆しており、AI投資の採算ラインを引き下げる技術的マイルストーンとして位置付けられる。国内企業がオープンウェイトモデルの独自学習に踏み切る際の経済的障壁を下げる効果も期待でき、AI内製化戦略の加速につながるとみられる。