【ラビットチャレンジ】応用数学②：確率統計

1. はじめに

本記事は、ラビットチャレンジの応用数学②：確率統計に関する記事です。
ラビットチャレンジは、現場で潰しが効くディープラーニング講座の教材を活用した講座です。
詳細は以下のリンクをご確認ください。

Deep Learning ラビット★チャレンジβ

現場で潰しが効くディープラーニング講座

2. 確率統計

今回の確率統計で扱う項目は次の通りです。

確率
条件付き確立
ベイズ則
記述統計、推測統計
確率変数と確率分布
期待値、分散
確率分布
推定、標本平均、標本分散

2.1. 確率

確率について、次の２種類がある。

頻度確率（客観確率）
発生する頻度
例えば、10本のうち1本くじを引いた時に、当選確率が10%など。

ベイズ確率（主観確率）
信念の度合い
例えば、40%の確率でインフルエンザなど。

2.2. 条件付き確率

ある事象X=xが与えられた下でY=yとなる確率のこと。
例えば、雨が降っている条件下で交通事故に遭う確率など。
以下の式で定義される。

　　　　\(P(Y = y | X = x) = \frac{P(Y = y, X = x)}{P(X = x)}\)

また、お互いの事象の発生に因果関係がない場合（互いに独立）、
以下の式で定義される。

　　　　\(P(Y = y | X = x) = P(X = x) P(Y = y) = P(Y = y,X = x)\)

2.3. ベイズ則

条件付き確率の式に注目すると、

　　　　\(P( X \cap Y) = P(X)P(Y | X)\)

XもYも起きる確率は、Xが起きる確率とXが起きた下でYが起きる確率の積で表せられる。

これは逆に、Yが起きた下でXが起きる確率の積で表せられるので、

　　　　\(P( X \cap Y) = P(Y)P(X | Y)\)

となり、上記の式を変形すると、

　　　　\(P(Y|X) = \frac{P(Y)P(X|Y)}{P(X)}\)

となる。
これをベイズの定理と呼ぶ。
イメージ的には、元々Yが起きる確率はP(Y)と思っていたが、
Xが起きるという情報を手に入れた時、P(Y|X)となるという感じ。

2.4. 記述統計、推測統計

記述統計
母集団を要約し、集団の性質を要約し記述する。
ただし、全データを集めることができるのが前提となる。

推測統計
集団から一部を取り出して、元の集団の性質を推測する。

2.5. 確率変数と確率分布

確率変数
事象と結び付けられた数値のこと。
例えば、くじであれば当たりが出たときのもらえる金額や、
試行の結果として起こる事象に結び付けられた数値。

確率分布
事象の発生する確率の分布。
確率変数に対して、各々の値をとる確率を表したもの。

2.6. 期待値、分散

期待値
確率変数の平均値のこと。
確率変数の全ての値に確率の重みをつけて平均したもの（加重平均）。
次の式で定義される。

離散の場合

　　　　\(期待値E(f) = \sum_{k=1}^nP(X=x_{k})f(X=x_{k})\)

連続の場合

　　　　\(期待値E(f) = \int P(X=x_{k})f(X=x_{k})\)

分散
データの散らばり具合のこと。
期待値からのズレを平均したもの。

　　　　\(分散Var(f) = E( (f_{(X=x)} - E_{(f)})^2) = E(f^2_{(X=x)}) - (E_{f})^2\)

下の式の方をよく使う。
2乗の期待値から期待値の２乗を引く。

共分散
2つのデータ系列の傾向の違い。
正の値をとる時は似た傾向、負の値をとる時は逆の傾向。

　　　　\(共分散Cov(f,g) = E( (f_{(X=x)} - E_{(f)}) (g_{(Y=y)} - E_{(g)})) = E(fg) - E(f)E(g)\)

2.7. 確率分布

ベルヌーイ分布
コイントスのイメージ、0か1（２通り）出る時の分布。

　　　　\(P(x|μ) = μ^x(1-μ)^{1-x}\)

期待値と分散は、

　　　　\(E[X] = 0 \times (1-μ) + 1 \times μ = μ\)

　　　　\(V[X] = E[X^2] - (E[X])^2 = μ - μ^2 \\ 　　　　　　　　　　　　　　= μ（1 - μ）\)

となる。

マルチヌーイ分布（カテゴリカル分布）
サイコロを転がすイメージ。
ベルヌーイ分布を多次元に拡張し、1回試行した時の分布。
値がxとなる確率がλであるK種類の離散値のうちの1つの値が生じる様な
試行を一回行った時の結果が従う確率分布。

　　　　\(P(x|λ) = \prod_{i=1}^Kλ_{i}^{x_i}\)

2項分布
ベルヌーイ分布の多試行版。

　　　　\(P(x|λ,n) = \frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x}\)

期待値と分散は、

\( 　　　　E[X] = x\sum_{i=1}^n\frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x} \\ 　　　　　　= \sum_{i=1}^nn\frac{(n-1)!}{(x-1)!(n-x+1)!}λλ^{x-1}(1-λ)^{n-x+1} \\ 　　　　　　= nλ\sum_{i=1}^n\frac{(n-1)!}{(x-1)!(n-x+1)!}λ^{x-1}(1-λ)^{n-x+1} \\ 　　　　　　= nλ \)

\( 　　　　E[X^2] = x^2\sum_{i=1}^n\frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x} \\ 　　　　　　= \sum_{i=1}^n(x(x-1)+x)\frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x} \\ 　　　　　　= \sum_{i=1}^nx(x-1)\frac{n!}{x!(n-x)!}λ^{x}(1-λ)^{n-x} + \sum_{i=1}^nx\frac{n!}{x!(n-x)!}λ^{x}(1-λ)^{n-x} \\ 　　　　　　= \sum_{i=1}^nn(n-1)\frac{(n-2)!}{(x-2)!(n-x+2)!}λ^2λ^{x-2}(1-λ)^{n-x+2}　+　nλ \\ 　　　　　　= n(n-1)λ^2\sum_{i=1}^n\frac{(n-2)!}{(x-2)!(n-x+2)!}λ^{x-2}(1-λ)^{n-x+2}　+　nλ\\ 　　　　　　= n(n-1)λ^2 + nλ \)

\( 　　　　V[X] = E[X^2] - (E[X])^2 \\ 　　　　　　= n(n-1)λ^2　+　nλ　-　n^2λ^2 \\ 　　　　　　= nλ-nλ^2 \\ 　　　　　　= nλ(1-λ) \)

となる。

ガウス分布
釣鐘型の連続分布。
正規分布とも呼ばれ、大体のデータがこの分布に従っていたり、従うことを仮定して分析する。

　　　　\(N(x;μ,σ^2) = \sqrt{\frac{1}{2πσ^2}}\exp{(-\frac{1}{2σ^2}(x-μ)^2)}\)

2.8. 推定、標本平均、標本分散

推定
母集団を特徴づけるパラメータ（平均など）を統計学的に推測すること。

点推定：平均値などを1つの値に推定すること。
区間推定：平均値などが存在する範囲（区間）を推定すること。
推定量：パラメータを推定するために利用する数値の計算式のこと。推定関数。
推定値：実際に試行を行った結果から計算した値。

標本平均
母集団から取り出した標本の平均値

　サンプル数が大きくなれば母集団の値に近づく　→　一致性
　サンプル数がいくらあってもその期待値は母集団の値と同様　→　不遍性

標本平均は一致性および不遍性を満たしており、標本平均の値を母平均の推定量として扱える。

標本分散
母集団から取り出した標本の分散

　　　　\(σ^2 = \frac{1}{n}\sum_{i=1}^n(x_i - μ)^2\)

しかし、上記は一致性は満たすが、不遍性は満たさない。
母分散に近づけるためには、標本分散の式にn/(n-1)をかける。
以下の式になる。

　　　　\(s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i - μ)^2\)

これを不遍分散という。

n-1で割っている理由は、直感的にはn個目の値は、
平均値が与えられおり、n-1個までの値で求まるため。
実質の値は全部でn個でなく、n-1個である。
（自由度がn-1）

3. 最後に

ラビットチャレンジでの講義である確率統計についてまとめました。
確率統計に関しては、学生時代にやっていたので、そんなに苦労はしませんでした。
また例の如く、色々数学的に突っ込みどころがありそうなまとめ方ですが、ご了承ください。。

引き続き、応用数学③：情報理論をまとめていきたいと思います。

データのまにまに