AI×マーケティング

AI画像生成に「物語」機能、企業活用が拡大へ

中国・香港の研究チームが、既存の画像生成AIにテキストと画像を交互に出力する「インターリーブ生成」能力を付与するマルチエージェント基盤「InterleaveThinker」を発表した。コンテンツ制作や製造現場の作業指導書自動生成に直結する技術として注目される。

AI画像生成に「物語」機能、企業活用が拡大へ
広告

香港中文大学を中心とする研究チームは、画像生成AIが単体では実現できなかった「インターリーブ生成」——テキストと画像を交互に並べた連続シーケンスの自動出力——を可能にするシステム「InterleaveThinker」を発表した。既存のどの画像生成モデルにも外付けで適用できる点が最大の特徴であり、企業が保有する既存AIインフラを刷新せずに機能拡張できる実用性の高さが評価される。

同システムは三つの構成要素から成る。まず「プランナーエージェント」が全体の生成手順を設計し、各ステップで画像生成器に対して具体的な指示を与える。次に「クリティックエージェント」が生成結果を評価し、指示と乖離したサンプルを検出して指示を修正・再生成する。この批評・修正ループを強化学習の手法「GRPO」で最適化することで、一連の生成軌跡全体の精度を向上させる。一回の生成プロセスで画像生成器を25回以上呼び出す場合もあるため、軌跡全体を一括最適化するのではなく、ステップ単位の報酬設計を採用してコストを抑制した。

性能面では、インターリーブ生成ベンチマークにおいてOpenAIの「GPT-5」や「Nano Banana」と同等水準を記録した。さらに推論系ベンチマーク「WISE」「RISE」でもベースモデルを大幅に上回る結果を示しており、単なる生成補助ツールを超えた論理的一貫性の確保能力が確認された。

ビジネスへの波及効果は複数の産業に及ぶ。出版・メディア業界では、マンガや絵本、操作マニュアルなど「図解を伴う連続ページ」の制作コストを抜本的に削減できる。編集部門のコンテンツ制作工数(KPI:ページ当たり制作時間)を従来比で数十パーセント圧縮できる可能性がある。

製造業では、設備保守や組み立て作業の手順書を現場写真と説明文が交互に並ぶ形式で自動生成する用途が期待される。保全部門が抱える「作業指示書の更新遅延」という課題に直接対処でき、保全作業のダウンタイム削減と誤作業率低減というKPI改善に貢献しうる。

電子商取引分野においても、商品説明ページやスタイリングガイドのような「テキストと商品画像を交互に配置したコンテンツ」の大量自動生成が可能となり、マーケティング部門のコンバージョン率向上施策に活用できる。特に多言語・多地域展開を行うブランドにとっては、各市場向けローカライズコンテンツの生産効率改善に直結する。

教育テクノロジー分野でも、図解入り学習教材やステップバイステップの解説動画スクリプトを自動生成するシステムへの応用が見込まれる。コース開発部門における教材制作のリードタイム短縮が主要な導入効果となろう。

導入に際してはデータ整備のハードルが残る。同システムの学習には「Interleave-Planner-SFT-80k」「Interleave-Critic-SFT-112k」という大規模データセットが必要であり、企業が独自ドメインに特化したモデルを構築する場合は追加のデータ収集・ラベリングコストが発生する。また、生成品質の担保には批評エージェントの精度が律速となるため、業種固有の評価基準をどのように設計・更新するかが運用上の課題となる。

研究チームはシステムの汎用性を強調しており、FLUX系モデルをはじめとする複数の画像生成器で性能向上が確認されている。既存AIへの外付け適用が可能な設計は、高額な基盤モデルの再開発を回避したいコスト意識の高い企業にとって導入障壁を下げる要因となる。ビジュアルコミュニケーションの自動化を競争優位の源泉と位置づける企業戦略において、本技術は重要な選択肢の一つとなりうる。

出典: InterleaveThinker: Reinforcing Agentic Interleaved Generation, Dian Zheng, Harry Lee, Manyuan Zhang, Kaituo Feng, Zoey Guo, Ray Zhang, Hongsheng Li, arXiv:2606.13679v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告