トピック: AI Governance

全セクション横断 2 件

米アンソロピック社の最新大規模言語モデル2種が、自動化されたジェイルブレーク攻撃により有害な出力を生成することが実証された。企業のAI導入リスク管理に根本的な見直しを迫る研究結果である。

言語モデルが現在の推論戦略の成功確率を内部で線形に符号化していることが明らかになった。AIの意思決定プロセスの透明性が高まり、企業の信頼性管理に新たな手段をもたらす可能性がある。