AI×医療

AIエージェント、創薬判断で正答率6割未満

米研究チームが創薬前臨床薬理領域向けAI評価基準「TxBench-PP」を公開。最高性能モデルでも正答率59.3%にとどまり、製薬企業のAI実用化判断に重大な指針を提示した。

AIエージェント、創薬判断で正答率6割未満
広告

製薬・バイオテクノロジー業界でAIエージェントの創薬プロセス導入が加速する中、その実力を客観的に測る評価基準が整備されつつある。米研究チームはこのほど、低分子化合物の前臨床薬理評価に特化したベンチマーク「TxBench-PP(TherapeuticsBench Preclinical Pharmacology)」を発表した。16種のモデル・ハーネス構成、計4,800の推論軌跡を検証した結果、いずれのシステムも前臨床判断を安定的に再現できないことが明らかになった。

同ベンチマークは100問の評価課題で構成され、作用機序(MoA)および薬力学的推論、化合物と標的分子の結合評価、因果的標的検証、開発適性・安全性、そして翻訳的有効性という5領域を網羅する。AIエージェントは実際の試験データファイルをコーディング環境上で参照し、構造化された回答を返す形式を採用。文献から記憶した知識ではなく、実データからの正確な解釈能力を測定する点が特徴である。

最高成績を記録したのはClaude Opus 4.8をPiハーネスと組み合わせた構成で、300問中178問に正解し正答率59.3%(95%信頼区間51.1〜67.6)を達成した。次点のGPT-5.5/Pi構成は55.3%(166/300)であった。いずれも臨床判断への実用水準には遠く及ばない数値と研究チームは評価する。

この結果が製薬企業の研究開発部門に与える示唆は大きい。まず、リード化合物選定や候補化合物の安全性評価など、前臨床段階の意思決定においてAIエージェントを単独で運用することは現時点では高リスクである。研究開発費の効率化を目的としてAI導入を進める企業は、ベンチマーク指標を調達・導入評価のKPIとして活用する必要が生じる。具体的には、適応症ごとのMoA推論精度や安全性フラグ検出率を定量的に比較した上でシステムを選定する体制が求められる。

製薬企業の情報システム部門にとっては、AIプラットフォームのベンダー選定基準が変化する契機ともなる。従来は大規模言語モデルの汎用性能指標が参照されてきたが、TxBench-PPのような領域特化型ベンチマークが標準化されれば、前臨床試験データの解析精度を直接比較できるようになる。これにより研究開発投資対効果(ROI)の算定精度が向上し、AI関連の設備投資意思決定を合理化できる。

CRO(医薬品開発業務受託機関)にとっても影響は無視できない。アッセイデータの解釈や候補化合物の絞り込みを外部AIサービスに委託する動きが広がる中、委託先が用いるシステムのベンチマーク成績開示を契約条件に盛り込む動向が生まれる可能性がある。さらに、規制当局への申請資料の信頼性担保という観点から、バリデーション済みのAI評価基準に準拠したシステムの利用が業界標準となる可能性もある。

今後の展望としては、TxBench-PPはTherapeuticsBenchシリーズの第一弾と位置づけられており、臨床試験設計や承認申請段階への拡張が予定されている。製薬企業の経営層は、AIが創薬の全工程を自律的に担う時代が到来するまでには、相応の評価基準の整備と技術成熟が必要であることを前提にロードマップを再設計する局面にある。

出典: TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology, Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman, arXiv:2606.19245v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告