AIエージェント、エピゲノム解析で最高45%止まり
米研究チームがAIエージェントのエピゲノム解析能力を測る評価基準「EpiBench」を公開した。最先端モデルでも正答率は45%に留まり、製薬・バイオ企業における自律型AI導入の限界が定量的に示された。

米国の研究チームは、AIエージェントがエピゲノム解析ワークフローをどの程度自律的に遂行できるかを測定するベンチマーク「EpiBench」を発表した。CUT&Tag/CUT&RUN、ATAC-seq、ChIP-seq、DNAメチル化の4種類のアッセイを対象に106項目の評価課題を設定し、16種類のモデルとツール組み合わせから得られた5,088件の実行軌跡を分析した。
結果として、いかなるシステムも過半数の試行に合格できなかった。最高成績はGPT-5.5とPiの組み合わせで正答率45.0%(318試行中143件)、次いでGPT-5.5とOpenAI Codexの組み合わせが39.9%(同127件)となった。Claude Opus 4.8 MaxとGPT-5.4もそれぞれ39.0%に留まった。失敗した試行の多くは正しいファイルを特定し有用な中間結果を算出するまでは成功しているが、アッセイ固有の科学的判断が必要な最終段階で誤答する傾向が確認された。
この結果が製薬・バイオテクノロジー業界に与える示唆は大きい。創薬研究部門では、ヒストン修飾やクロマチン構造の解析を通じてターゲット遺伝子の発現制御機構を解明する作業が日常的に発生する。こうした解析の一部をAIエージェントに委託して研究者の工数を削減する構想が各社で検討されているが、EpiBenchの数値は現時点での自律化の上限を示している。正答率が50%を下回る段階での完全自律運用は、誤った生物学的解釈に基づいて候補化合物の選定が行われるリスクを内包しており、研究開発コストの無駄遣いや試験の遅延につながりかねない。
バイオインフォマティクス部門の管理者が注目すべき点は、AIの失敗パターンの所在である。ファイル検索や数値計算といった定型処理では高い精度を示す一方、アッセイの特性に応じた判断——例えばATAC-seqにおけるピーク品質の評価基準の選択やChIP-seqにおける抗体効率の考慮——において性能が著しく低下する。これは、AIを「完全な代替者」ではなく「初期処理の補助ツール」として位置付ける人間とAIの協働モデルが現実的であることを示唆する。具体的には、データの前処理・整形・基本統計量の算出をAIに担わせ、解釈と意思決定を専門家が担う役割分担が推奨される。
医療・臨床ゲノミクス分野においても影響は無視できない。エピゲノム解析はがんの早期診断マーカー探索や免疫療法の効果予測に活用されており、解析精度は患者層別化の精度に直結する。臨床検査機関がAIエージェントを解析パイプラインに組み込む場合、EpiBenchのような第三者評価基準に基づく性能検証をバリデーションプロセスに組み込むことが、規制当局への説明責任という観点からも求められるようになる可能性がある。
KPIの観点では、研究開発部門は「アッセイ別のAI正答率」「人間によるレビューが必要な割合」「エラー検出までのリードタイム」などを管理指標として設定し、AI導入効果を継続的に測定する体制を構築することが重要である。
EpiBenchはアッセイの種類によって性能にばらつきがあることも明らかにしており、研究者はユースケースに応じて適切なモデルとツールの組み合わせを選択する必要がある。今後、モデルの改善とともに正答率が向上するかを継続的に追跡するための共通尺度としても、同ベンチマークの活用が期待される。