AI×経営戦略読了 約3

長文検索の精度と効率を両立する新手法登場

東京大学などの研究チームが、企業の長文書検索における精度と保存コストの二律背反を解消する「マルチプレフィックス埋め込み」手法を発表した。RAGシステムの精度向上とインフラコスト削減に直結する成果として注目される。

長文検索の精度と効率を両立する新手法登場
広告

企業内の文書検索基盤において、長文書をいかに効率よく高精度で検索するかは、法務・金融・製造など多くの業界における生成AIシステムの根幹課題であった。カナダ・ウォータールー大学やグーグルを含む研究チームが発表した「マルチプレフィックス埋め込み(MPE)」は、この問題に対して実用的な解法を提示している。

従来の文書検索手法には大きく二つの方向性があった。一つは文書全体を単一のベクトルに圧縮する「シングルベクトル埋め込み」であり、処理は軽量だが細部の意味情報が失われやすい。もう一つはトークン単位で複数ベクトルを生成する「マルチベクトル手法」で、精度は高いが保存容量が膨大になる。数万件の社内文書を扱う大企業では、後者の導入コストが障壁となるケースが多かった。

MPEはこの二者択一を回避する第三の道を提案する。文書を複数のチャンク(断片)に分割し、それらをEOSトークンで区切って一度のフォワードパスで全体を処理する。各チャンク末尾の位置に埋め込みベクトルを配置することで、チャンク間の文脈情報を保持しながら、チャンク単位での類似度照合(MaxSimマッチング)が可能になる。学習には文書レベルの関連性ラベルのみを用いるため、細かいアノテーション作業が不要という点も実務導入のハードルを下げる。

評価実験では、長文書検索ベンチマーク「MLDR-en」「LongEmbed」および複雑なウェブ検索タスク「BrowseComp-Plus」において、シングルベクトル・独立チャンク・マルチベクトルの各ベースラインと同等以上の性能を示した。特筆すべきは、どのチャンクが回答の根拠となったかを特定できる「ソースアトリビューション機能」が自然な形で組み込まれている点である。

ビジネス上の影響は複数の業界に及ぶ。金融機関の調査部門では、数十ページに及ぶ有価証券報告書や契約書を対象としたRAG(検索拡張生成)システムの回答精度が向上する。根拠箇所の特定が容易になることで、コンプライアンス上の説明責任を果たしやすくなるという副次効果もある。製造業の技術文書管理では、設計仕様書や品質マニュアルの横断検索において、従来比でストレージコストを抑制しながら検索適合率(Precision@K)を改善できる見込みである。法務部門においても、契約書レビューや判例検索システムへの応用が期待される。

KPI面では、エンタープライズ検索システムの「回答生成の根拠引用率」「検索インデックスのストレージ使用量」「一クエリあたりの推論レイテンシ」という三指標にわたって改善効果が見込まれる。特にベクトルデータベースの運用コストは、多くの企業でAI基盤投資の主要な変動費となっており、MPEの採用はこの費用対効果を直接改善する可能性がある。

今後の課題として、多言語対応や動的に更新される文書コーパスへの適用が挙げられる。日本語のような形態素分割が複雑な言語でチャンク分割の精度をどう担保するかは、国内企業が導入を検討する際の検討事項となろう。手法の公開により、オープンソースの検索ライブラリへの統合も進むと見られる。

関連トピック

出典: Improving Long-Context Retrieval with Multi-Prefix Embedding, Zhenglin Yu, Xueguang Ma, Shengyao Zhuang, Zhichao Xu, Luyu Gao, Crystina Zhang, Jimmy Lin, arXiv:2606.23642v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

同セクションの記事

広告