AI×経営戦略6/30(火)LLM安全機構の残存信号、脱獄攻撃を検知大規模言語モデルへの「脱獄攻撃」が成功した場合でも、モデル内部に安全性の活性化信号が残存することが判明した。訓練不要の検知手法への応用が期待され、企業のAIガバナンス態勢を大きく変える可能性がある。
AI×経営戦略6/18(木)最先端LLMも自動攻撃に突破される米アンソロピック社の最新大規模言語モデル2種が、自動化されたジェイルブレーク攻撃により有害な出力を生成することが実証された。企業のAI導入リスク管理に根本的な見直しを迫る研究結果である。