35Bモデルが1兆パラメータ級性能を達成
中国の研究チームが、わずか350億パラメータのAIエージェントで1兆パラメータ級モデルと同等の性能を実証した。推論コストを大幅に削減しながら高度な自律タスクをこなせる可能性が示され、企業のAI導入コスト構造を根本から変えうる。

研究の概要
上海人工智能実験室などの研究チームは、Agents-A1と呼ぶ350億パラメータのMixture-of-Experts(MoE)型AIエージェントを開発し、1兆パラメータ級モデルに匹敵する性能を複数のベンチマークで達成したと発表した。
従来、高度な推論や長期的タスク処理にはパラメータ数の増大が不可欠とされてきた。Agents-A1はその常識を覆し、「エージェント・ホライズンのスケーリング」という新たな手法を採用した。具体的には、平均4万5000トークンに及ぶ長期行動軌跡を生成・学習させるインフラを構築し、外部知識・アクション・観測・検証結果を連結する仕組みを整えた。
学習は三段階で実施された。第一段階では幅広いエージェント行動を習得させる教師ありファインチューニングを行い、第二段階で各専門領域に特化したティーチャーモデルを構築、第三段階では「マルチティーチャー・ドメイン・ルーテッド蒸留」と呼ぶ独自手法で六つの異質領域の知識を一つの汎用モデルへ統合した。
結果として、長期推論タスクのベンチマークであるSEAL-0で56.4点、命令追従評価のIFBenchで80.6点を記録し、KimiやDeepSeekの1兆パラメータ級モデルと同等またはそれ以上の成績を収めた。
ビジネスへの示唆
この成果が持つ最大の意義は、推論コストの劇的な圧縮にある。1兆パラメータのモデルを稼働させるには大量のGPUクラスターが必要であり、クラウドAPIコストも高止まりしている。一方、35Bモデルであれば単一サーバーないし小規模クラスターへのオンプレミス展開が現実的となる。
特に影響が大きい領域は以下の通りである。
- 製薬・ライフサイエンス: 創薬における分子結合予測(MolBench-Bindで56.8点)や科学文献の自律的精査が可能となり、研究開発費の削減と候補化合物絞り込みの加速が見込まれる。
- 金融・法務部門: 長期的な契約解析や規制調査など、従来は人手を要していたリサーチ業務を自律エージェントが代替し、アナリストやパラリーガルの生産性KPIを押し上げる。
- 製造・エンジニアリング: 複数工程にまたがる設計最適化や障害原因の推論など、長い因果連鎖を要する業務への適用が広がる。
コスト面では、1兆パラメータ級APIを月額数百万円規模で利用している企業がオンプレミス移行を選択した場合、ランニングコストをおおよそ5分の1以下に抑えられるとの試算も業界内で示されている。また、データをクラウドに送出しない内部展開が可能となることから、金融・医療など機密性の高いデータを扱う部門にとっては情報ガバナンスの観点でも優位性がある。
今後の展望
課題も残る。SciCode(44.3点)やHLE(47.6点)などの評価指標では1兆パラメータ級モデルに対してなお若干の劣後があり、数学的推論の深さや未知領域への汎化能力については継続的な改善が必要だ。
ただし、研究チームはモデルの重みと学習手法の一部を公開する方針を示しており、オープンソースコミュニティによる追加改良が期待される。国内外のITベンダー各社は既に類似アーキテクチャの製品化を加速させており、2025年末から2026年にかけてエンタープライズ向け小型高性能エージェントの競争が本格化するとみられる。企業のAI推進部門は、性能指標だけでなく推論コスト・展開形態・データガバナンスを三位一体で評価する調達基準の再整備を迫られる局面が到来しつつある。
関連トピック
同セクションの記事
セマンティック通信、無線バックドア攻撃の脅威と防御策が判明
次世代無線通信技術「セマンティック通信」が共有アクセス環境でバックドア攻撃に脆弱であることが判明した。製造・物流・医療分野でのAI推論システムへの影響は大きく、早急な対策が求められる。

AIエージェント間通信の脆弱性、予測的防御が可能に
米ペンシルベニア州立大の研究チームが、複数AIエージェントが連携するシステムの通信経路リスクを事前に予測するフレームワーク「MESA」を発表。セキュリティ資源が限られる企業でも攻撃成功率を大幅に低減できる可能性を示した。

LLM解釈精度を高める新手法登場
米中共同研究チームが大規模言語モデルの内部構造解析に潜む「特徴分裂」「特徴吸収」問題を解決する正則化手法「C²R」を発表。AI監査・リスク管理の信頼性向上に直結する成果として注目される。
