確率 probability,確率変数 random variable は,リンク先にそれぞれ説明があります。
ここは確率密度関数 probability density distribution のページですが,しっかりと理解するために確率分布 probability distribution と合わせて説明します。
関連項目
分布など
確率分布 probability distribution は,辞書,教科書で以下のように定義されている。
つまり,確率について次元のようなものを考えるならば,確率分布の次元は確率自身である。実例として,正 5 面体の理想的なサイコロでを考えてみる。
確率変数は 1, 2, 3, 4, および 5 であり,それぞれの値がもっている確率は 0.2 である。
確率分布とは,0.2 という値が散らばっているパターンそのもの のことをいう。
パターンなので,視覚化するならば右の plot の図全体に相当する。
この例では,サイコロは 1 - 5 以外の値をとらないため,離散型の確率分布 discrete probability distribution と呼ばれる。
Bar graph は値に範囲がある連続型の確率分布のように見えてしまうので,この場合よい表現方法ではない。
MATLAB で描画。
文献 2 では,次のように定義されている。上記の点を違う言葉で述べていると考えてよい。
x について積分することによって,確率分布を与えるような関数 f(x) を確率度密度関数 probability density function という。辞書での定義は以下の通りである(6)。f が確率密度を示し,その関数を確率密度関数と呼ぶと書かれている。
なお,以上の確率分布,確率密度関数の定義は,離散型および連続型のいずれにもあてはまるものである。
離散型の場合は,少し関数をイメージすることが難しい。
P(X=1) = P(X=2) = P(X=3) = P(X=4) = P(X=5) = 0.2
というのが確率密度関数 f(x) になる。
データ範囲 | 分布の名前 | 説明 |
有限 |
ベルヌーイ分布 |
確率 p で事象 A が,確率 q = 1 - p で 事象 B が起こる分布である。両者の確率から,起こり得る事象は A および B の 2 つだけであることもわかる。コイントスが代表的な例。 |
有限 |
一様離散分布 |
上のサイコロの例のように,有限な数の事象があり,かつそれぞれの確率が等しい分布。「同様に確からしい」という表現がよく使われる。 |
無限 |
ポアソン分布 Poisson distribution |
1 時間当たりに受け取るメールの数,年間の交通事故数のように,自然数を要素とする確率変数 X が従う分布。 |
身長や体重は,サイコロの目のように離散的な値をとらず,連続的な分布を示す。単純化のために,正規分布 normal distribution に従うと考える。
この場合は,上記の例のように 0.2 などの数値の羅列で分布のパターンを記述することはできず,連続的な関数で記述する必要がある。
連続型の確率変数の場合も,分布のパターン(グラフそのもの)を確率分布といい,確率の分布を記述している関数(下のグラフの青線を示す式)を確率密度関数という。
ここで,連続的ということは,以下のことを意味する。
図 1.
確率密度関数は,もともと積分することで確率を与える関数として定義されている。
つまり,身長が 165 cm である確率はゼロであるが,165 - 170 cm のように範囲を指定すると,その範囲の積分値(右のグラフの赤い領域)が確率を与えることになる。
図 2.
文献 3, 5 などを参考にしました。
データ範囲 | 分布の名前 | 説明 |
有限 |
ベータ分布 |
分布形状の自由度が高く,様々な分布にフィットさせることができる。 |
有限 |
ジョンソン SB |
ベータ分布と同様に自由度が高い。平均,標準偏差,歪度,尖度を自由に調整できる。樹木の幹の直径の分布? |
データ範囲 | 分布の名前 | 説明 |
半無限 | 指数分布 | たまに起きる事象の「間隔」の分布。この分布に従って事故が発生すると,その頻度はポアソン分布になる。 |
半無限 |
対数正規分布 |
正規分布 normal distribution の対数。年収などがこの分布に従うらしい。 |
半無限 |
カイ二乗分布 |
カイ二乗検定 chi-square test に利用される。 |
半無限 |
F 分布 |
F 検定に利用される。 |
データ範囲 | 分布の名前 | 説明 |
無限 | コーシー分布 | 正規分布に似るが,外れ値の多い分布である。 |
無限 |
ロジスティック分布 |
正規分布に似るが,裾が少し厚い。正規分布よりも式が簡単で扱いやすい。また,この分布の累積分布関数はロジスティック曲線であり,様々な分野で応用されている。 |
無限 |
正規分布 |
平均値と分散 SD で決まる基本的な分布。 |
無限 | t 検定 に利用される。 |
まず,確率変数 X が A 以下の値をとる事象を {X ≤ A} とする。決まった範囲でなく 「A 以下の全ての値」
-∞ ≤ X ≤ A であることに注意しよう。
このとき,この確率は P(X≤A) = F(x) という関数で表される。関数 F(x) を 累積分布関数 cumulative distribution function, CDF という。
横軸に x ,縦軸に F(x) をとり,累積分布関数の図を描いてみよう。以下のことから,大体の形をイメージできるだろう。
したがって,F(x) は右のように F(x)=1 と F(x)=0 を漸近線するグラフになる。
図 3.
X 軸の数値は適当なので,グラフの形をイメージするために使って下さい。
よく言われるのが,「累積分布関数を微分すると確率密度関数になる」 ということである。これは全く正しいが,積分から考えたほうがイメージしやすいのではないかと思う。
これらのことを踏まえた上で,図 1 または図 2 で関数と X 軸の間の面積を左の方から(-∞ から)足し合わせていくイメージで考えてみよう。
x を動かしていったとき,その面積の変化がそのまま累積分布関数 F(x) になる ことがイメージ出来ただろうか?