トピック: Jailbreak

全セクション横断 2 件

米研究者がAIエージェントへの不正攻撃に対し、拒絶応答の代わりに意図的な誤誘導で返答する新防御手法を発表。自動化攻撃の成功率を最大100分の1に抑制し、企業AI導入の安全基盤を強化する可能性を示した。

安全対策済みの大規模言語モデルが、文脈内デモの組み合わせ方によって有害な回答を生成しやすくなることが判明した。企業のAI導入リスク管理に直結する知見として注目される。