AI×金融

スタンフォード、SEC開示書類をAI学習データに変換

スタンフォード大学がSEC提出書類1850万件をLLM学習用データセットに再構築した。金融機関や監査法人が財務分析・コンプライアンス業務に活用できるAI開発基盤として注目される。

スタンフォード、SEC開示書類をAI学習データに変換
広告

スタンフォード大学の研究チームは、米証券取引委員会(SEC)のEDGARデータベースに登録された企業開示書類を、大規模言語モデル(LLM)の学習に適した形式へ変換したデータセット「Stanford EDGAR Filings Dataset(SEFD)」を公開した。初期公開版(SEFD-v1)は1520億トークンに相当し、より大規模なアーカイブは5500億トークン規模に達すると推計される。

SEFDの最大の特徴は、財務諸表や注記、リスク開示、株式保有報告書、重要事実報告書など多様な書類をMultiMarkdown形式で忠実に再現した点にある。従来のウェブ由来コーパスとの重複率は0.1%未満であり、既存のLLMが学習していない新規情報を大量に含む。研究チームはあわせて、モデルの知識カットオフ後の数値予測能力を評価する「EDGAR-Forecast」と、複雑な財務表の文字認識精度を評価する「EDGAR-OCR」という二つのベンチマークも提供した。

金融業界への影響は多岐にわたる。証券会社のリサーチ部門では、決算短信や有価証券報告書に相当する米国企業の開示書類を素材に、収益予測モデルや財務異常検知システムを内製化できる可能性が高まる。特にEDGAR-Forecastベンチマークは、AIが実際の開示情報を根拠として数値予測を行う能力を測定するため、アナリストの予測精度(予測誤差率)やカバレッジ拡大といったKPIに直結する。

監査法人・会計事務所にとっては、監査済み財務諸表と注記情報が構造化された形で利用可能になることで、異常仕訳の自動検出や開示漏れチェックを行うLLMの開発コストが大幅に低下する。従来は独自にデータ整備に多大な工数を要していたが、SEFDを基盤とすることで開発期間の短縮が見込まれる。コンプライアンス部門においても、リスク開示文書の変化を継続的に監視するシステムの構築に活用できる。

資産運用業界では、ファンドマネジャーを補佐するAIエージェントへの応用が考えられる。株式保有報告書(Form 13F等)や重要事実報告書(Form 8-K等)を学習したモデルは、市場影響度の高いイベントをリアルタイムで要約・分類する機能を担い得る。運用会社のリサーチ効率化やアルファ創出プロセスの高度化につながる。

法務・コンプライアンス分野では、企業内法務部門が有価証券関連の開示義務履行状況を自動チェックするツールの開発に役立てられる。米国市場に上場する日本企業の法務部門においても、英語開示書類の審査補助ツールとして活用できる余地がある。

データセットはオープンソースとして公開されており、研究機関やフィンテック企業が追加コストなく利用できる点も普及を後押しする。一方で、SECへの提出書類は米国企業が中心であるため、日本国内企業の財務情報を扱う際は別途データ整備が必要となる。また、学習データの品質管理や著作権の取り扱いについては、各社の法務部門が利用条件を精査することが求められる。

高品質な長文脈データの枯渇が業界全体の課題となるなか、公的機関のデータを活用したオープンデータセットの整備は、金融特化型LLMの民主化を加速させる動きとして位置づけられる。

出典: The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data, Nick Bettencourt, Xiaowei Ding, Kay Giesecke, arXiv:2606.18192v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告