トピック: Red Teaming

全セクション横断 3 件

大規模言語モデルが敵対的操作を受けた際に自身の状態を正確に認識できないことが実証された。AI導入企業のリスク管理部門にとって、モデルの自己申告に依存した安全策が根本から問い直される。

AIエージェントが個人データを扱う際のGDPR違反を実行時に自動検知・阻止する検証フレームワーク「C-Trace」が発表された。規制対応コストの削減と制裁リスクの低減に直結する技術として注目される。

米アンソロピック社の最新大規模言語モデル2種が、自動化されたジェイルブレーク攻撃により有害な出力を生成することが実証された。企業のAI導入リスク管理に根本的な見直しを迫る研究結果である。