AI×経営戦略

LLMの性格診断、大半が測定誤差と判明

大規模言語モデルに人間用の心理検査を適用して得られる「性格プロファイル」は、モデルの実態ではなく測定手法の産物である可能性が高いことが、欧州の研究チームによる実証分析で明らかになった。AI導入の安全評価や市場調査代替への活用に再考を迫る知見である。

LLMの性格診断、大半が測定誤差と判明
広告

バーゼル大学などの研究チームは、56の命令チューニング済み大規模言語モデル(LLM)に対し、性格特性や危険選好を測定する複数の心理測定ツールを投与し、その結果を大規模な人間サンプルと比較する実証研究を実施した。分析には精神測定学の形式的フレームワークを用い、モデル間の回答差異がどの要因によって生じるかを分散分解手法で検証した。

最大の発見は、LLM間の回答差異の81〜90%が「方向性応答バイアス」によって説明されることである。これは、質問の内容にかかわらず、回答尺度の特定の端や特定の選択肢に向かって一貫して回答する傾向を指す。同様の分析を人間サンプルに適用した場合、このバイアスが占める割合はわずか9〜16%にとどまり、人間では測定対象の特性そのものが回答を規定していることが確認された。

また、モデルの能力が高いほどバイアスは低減するものの、完全には解消されないことも判明した。さらに研究チームは「応答直交性」という新概念を提唱した。これは、特性の方向とバイアスの方向が逆を向く項目の比率を示す指標であり、この比率が高い検査ほど見かけ上の信頼性が高くなる傾向があることが示された。加えて、使用する質問項目の選び方次第で、同一モデルが異なる性格プロファイルを持つように見せかけることが可能であることも実験的に確認された。

この知見が直接的に影響するのは、まずAI製品・サービスの安全性評価を担うリスク管理部門である。多くの企業がLLMの「価値観」や「リスク選好」を既存の心理検査で評価し、安全性スコアやコンプライアンス適合の根拠としているが、本研究はそうした評価の妥当性に根本的な疑問を呈する。安全審査のKPIとして設定された心理的安全スコアが、測定手法の選択に依存した恣意的な数値に過ぎない可能性がある。

次に影響を受けるのは、LLMを消費者調査の代替手段として活用するマーケティング・リサーチ部門である。コスト削減を目的にAIによる「仮想回答者」を活用する手法が普及しつつあるが、LLMの回答が人間の心理特性ではなくバイアスを反映しているとすれば、顧客セグメント分析や製品コンセプトテストの精度に重大な影響を及ぼす。購買意向スコアや顧客満足度予測の信頼性が根底から揺らぐ恐れがある。

人事部門においても同様の問題が生じる。採用・研修プロセスにLLMを組み込む際、候補者との相性判断やチーム編成の補助にモデルの性格特性を参照している事例が増えているが、その前提となるプロファイルが無効である場合、意思決定の根拠が失われる。

研究チームは、人間心理学から流用した検査ツールはLLMに対して本質的に妥当性を欠く可能性があると警告し、応答直交性を中心に据えたLLM専用の評価手法の開発を求めている。企業が既存の人間用心理測定ツールをAI評価にそのまま転用することへの警鐘として、実務的な意義は極めて大きい。

今後の課題は、LLMの行動特性を適切に捉えるための新たな測定基準の確立にある。国際標準化機関や主要AIベンダーが評価フレームワークの再設計に着手する動きが予想される中、先行して独自基準を構築する企業が規制対応と製品品質の両面で優位に立つ可能性がある。

出典: Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact, Jelena Meyer, David Garcia, Dirk U. Wulff, arXiv:2606.20205v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告