テスト-再テスト信頼性とは

信頼性の統計的基盤

テスト-再テスト信頼性は古典的テスト理論 (CTT) における信頼性の定義に直接対応する。CTT では観測スコア = 真のスコア + 誤差と定式化され、信頼性係数は真のスコアの分散が観測スコアの分散に占める割合として定義される。テスト-再テスト法では 2 回の測定間の相関がこの信頼性係数の推定値となる。ただし、測定間隔が短すぎると記憶効果により相関が過大評価され、長すぎると真の能力変化により過小評価される。認知テストでは 1-4 週間の間隔が推奨される。

信頼性に影響する要因

認知テストの信頼性を低下させる要因は複数存在する。練習効果は最も一般的な要因で、特に初回から 2 回目にかけてスコアが大幅に向上する。これは課題への慣れや戦略の最適化によるもので、真の能力変化ではない。日内変動 (概日リズムによる覚醒度の変化)、日間変動 (睡眠の質、ストレス、カフェイン摂取量の違い)、動機づけの変動も信頼性を低下させる。テストの試行数が少ないと測定誤差が大きくなるため、十分な試行数を確保することも重要である。

Bench のスコア解釈への応用

Bench のテスト結果を正しく解釈するには、各テストの信頼性を理解しておく必要がある。反応時間テストは一般に高い信頼性 (r = 0.80-0.90) を示すが、これは 20 試行以上の中央値を使用した場合である。単一試行のスコアは信頼性が低く、個人の能力を正確に反映しない。スコアの変化が「真の改善」か「測定誤差の範囲内」かを判断するには、信頼性係数から算出される測定の標準誤差 (SEM) を参照する。SEM の 1.96 倍を超える変化があれば、95% の確信度で真の変化と判断できる。

テスト-再テスト信頼性

信頼性の統計的基盤

信頼性に影響する要因

Bench のスコア解釈への応用

関連用語

関連記事

認知テストの日間変動 - 同じ人でもスコアが毎日違う理由

認知テストの結果を正しく読み解く - パーセンタイルと統計リテラシー