関連項目
t 検定を理解するために
この順で読んでみてください。
まず,2 つの集団を考えてみる。
ここで,変数 t を以下のように定義する。分子は標本集団の平均から母集団の平均を引いたもの,分子は標本集団の標準偏差(不偏分散の標準偏差)をサンプル数 n の平方根で除したものである。
この t は統計検定量と呼ばれ, この t が従う分布を t 分布という。
t 分布は左の式で表される。ここで,Γ はΓ関数,ν は自由度 degree of freedom(サンプル数 n から1 を引いたもの)である。
実際の背景を反映していないかもしれないが,理解の順としては
t 値をネットで検索すると,そのサイトの説明の仕方に応じていろいろな式が出てきてしまい,これがまず混乱する。最初の段階として,t 値には,データの種類によって複数の計算式がある ことを認識しよう。
母集団と標本集団の平均,標準偏差が全てわかっている状態では,t 値に非常によく似た z 値が用いられる(左)。 これを用いる検定は z 検定である。
m は標本平均,μ は母平均,σ は母標準偏差(母集団の標準偏差),n は標本数。
論より証拠ということで,MATLAB を使って t がどのように分布するのか調べてみます。
まずは,基本的な条件として mean_p=0, sd_p=1, 母集団の要素を 1,000,000 個,n = 100 としてみます。興味のある人は,右上のリンク先にある script も見てみて下さい。
母集団のヒストグラム。縦軸は要素の個数です。
n = 100 の標本集団。母集団の分布をあまり反映していないように見えますが,ランダムサンプリングなのでこんなものです。
母集団から 100 個を取り出す作業を 1 回行い,上のようなヒストグラムを得ました。このときの t は -0.9636 でした。次に,「母集団から 100 個を取り出す」 作業を複数回繰り返し,t の値がどのように分布するのかを調べてみます。
10 回の繰り返し。まだ t の値はばらばらで,一定の傾向は見えません。
1,000 回。山型の分布になってきましたが,まだガタガタしています。
100,000 回。ほぼ理想的な分布になりました。
100 回。なんとなく,t は 0 に近い値を取る確率が高そうに思えてきました。
10,000 回。もう分布の形がはっきりわかるようになってきました。 ± 3 以上の値は極めて稀です。