メインコンテンツへスキップ

信頼区間

しんらいくかん

真のスコアが含まれる可能性の高い値の範囲で、認知テストに内在する測定誤差を定量化する統計指標

信頼区間とは、測定値に含まれる誤差を考慮し、真の値が存在する確率的な範囲を示す統計的概念である。認知テストでは 1 回の測定値が真の能力を完全に反映することはなく、体調や集中度による変動が含まれる。95% 信頼区間は「この範囲に真のスコアが含まれる確率が 95%」であることを意味する。

信頼区間の基本概念

信頼区間 (Confidence Interval, CI) は、測定値の不確実性を数値化する統計的手法である。認知テストで得られるスコアは、真の能力値に測定誤差が加わった観測値にすぎない。95% 信頼区間とは、同じ条件で測定を 100 回繰り返した場合、そのうち 95 回は真の値がこの範囲内に収まることを意味する。たとえば反応時間が 200ms で 95% CI が [185ms, 215ms] であれば、真の反応時間は 185-215ms の範囲にある可能性が高い。信頼区間が狭いほど測定の精度が高く、広いほど不確実性が大きい。

認知テストにおける測定誤差の源泉

認知テストの測定誤差は複数の源泉から生じる。試行間変動として、同一セッション内でも反応時間は試行ごとに数十 ms のばらつきを示す。日間変動として、睡眠の質、カフェイン摂取、ストレスレベルなどが日によって異なるスコアを生む。環境要因として、照明、騒音、デバイスの入力遅延なども影響する。これらの誤差源を統計的に集約したものが信頼区間であり、単一の数値よりも「範囲」として結果を捉えることで、過度な一喜一憂を避けた冷静な自己評価が可能になる。

スコア比較と改善判定への活用

信頼区間は 2 つのスコアの差が統計的に意味のある差かどうかを判断する際に重要な役割を果たす。2 回の測定で信頼区間が重なっている場合、そのスコア差は測定誤差の範囲内であり、真の能力変化とは言えない。逆に信頼区間が重ならない場合は、統計的に有意な変化が生じた可能性が高い。Bench では各テスト結果に信頼区間を表示し、ユーザーが「本当に改善したのか、それとも日常的な変動の範囲内か」を客観的に判断できるようにしている。測定回数を増やすと信頼区間は狭くなり、より精密な評価が可能になる。