メインコンテンツへスキップ

テスト-再テスト信頼性

てすと・さいてすとしんらいせい

同一個人が同一テストを異なる時点で受けた際のスコア間相関で測定の安定性を示す指標

テスト-再テスト信頼性とは、同一の被験者が同一のテストを異なる時点で実施した際に得られるスコア間の相関係数 (通常はピアソンの r または級内相関係数 ICC) で表される心理測定学的指標である。値が 1 に近いほど測定が安定しており、個人の真の能力を反映していることを示す。認知テストでは r = 0.70 以上が実用的な信頼性の基準とされ、0.80 以上で良好、0.90 以上で優秀と評価される。練習効果や日内変動が信頼性を低下させる要因となる。

信頼性の統計的基盤

テスト-再テスト信頼性は古典的テスト理論 (CTT) における信頼性の定義に直接対応する。CTT では観測スコア = 真のスコア + 誤差と定式化され、信頼性係数は真のスコアの分散が観測スコアの分散に占める割合として定義される。テスト-再テスト法では 2 回の測定間の相関がこの信頼性係数の推定値となる。ただし、測定間隔が短すぎると記憶効果により相関が過大評価され、長すぎると真の能力変化により過小評価される。認知テストでは 1-4 週間の間隔が推奨される。

信頼性に影響する要因

認知テストの信頼性を低下させる要因は複数存在する。練習効果は最も一般的な要因で、特に初回から 2 回目にかけてスコアが大幅に向上する。これは課題への慣れや戦略の最適化によるもので、真の能力変化ではない。日内変動 (概日リズムによる覚醒度の変化)、日間変動 (睡眠の質、ストレス、カフェイン摂取量の違い)、動機づけの変動も信頼性を低下させる。テストの試行数が少ないと測定誤差が大きくなるため、十分な試行数を確保することも重要である。

Bench のスコア解釈への応用

Bench のテスト結果を正しく解釈するには、各テストの信頼性を理解しておく必要がある。反応時間テストは一般に高い信頼性 (r = 0.80-0.90) を示すが、これは 20 試行以上の中央値を使用した場合である。単一試行のスコアは信頼性が低く、個人の能力を正確に反映しない。スコアの変化が「真の改善」か「測定誤差の範囲内」かを判断するには、信頼性係数から算出される測定の標準誤差 (SEM) を参照する。SEM の 1.96 倍を超える変化があれば、95% の確信度で真の変化と判断できる。