【ラビットチャレンジ】応用数学③:情報理論

1. はじめに

本記事は、ラビットチャレンジの応用数学③:情報理論に関する記事です。
ラビットチャレンジは、現場で潰しが効くディープラーニング講座の教材を活用した講座です。
詳細は以下のリンクをご確認ください。


tsubushi

Deep Learning ラビット★チャレンジβ

tsubushi

現場で潰しが効くディープラーニング講座


2. 情報理論

今回の情報理論で扱う項目は次の通り。

  • 自己情報量
  • シャノンエントロピー
  • カルバック・ライブラー ダイバージェンス
  • 交差エントロピー

2.1 自己情報量

情報量
事象が起こる珍しさを数値化したもの。
例えば、普段の電車で、1車両に10人乗っていたとして、
ある日は20人乗っていた、またある別の日には1000人乗っていたとする。
この場合、後者の日が珍しいと分かる。

数値化を考えた時、元の状態との差分の比率に着目する。

    \(情報量 = \frac{Δw}{W}\)

こうした時、前者は1、後者は99と表すことができ、後者の方が大きい(=珍しい)と判断できる。

自己情報量
情報量をwで積分した時、次の式が定義される。

    \(I(x) = log(W(x)) = -log(P(x))\)

対数の底が2の時、単位はbid
対数の底がeの時、単位はnat

情報量と確率は逆数の様な関係になっているので、符号は逆転する。
イメージ的に上の例で言えば、1000人乗っていた日は、
前もって祭りの日だと分かっていれば、人数が増えるのが予想できる
(=その事象が起きる確率は下がる)

2.2 シャノンエントロピー

自己情報量の期待値、次の式で定義する。

\(H(x) = E(I(x)) = -E(log(P(x)) = -\sum(P(x)log(P(x)))\)

確率0.5の時、情報量が大きくなる(偏りがない)

2.3 カルバック・ライブラー ダイバージェンス(KLダイバージェンス)

同じ事象・確率変数における、異なる確率分布P,Qの違いを表す。
元々は、Qの分布だと思っていたが実際はPだとわかった時の差分を示す。

\(D_{KL}(P||Q) = E_{x \verb|~| P} [log\frac{P(x)}{Q(x)}] = \sum_xP(x)(-log(Q(x)) - (-log(P(x)))) = \sum_x(P(x)log\frac{P(x)}{Q(x)})\)

2.4 交差エントロピー

KLダイバージェンスの一部分を取り出したもの。
Qについての自己情報量をPの分布で平均している。

\(H(P,Q) = -\sum_xP(x)logQ(x)\)

3. 最後に

ラビットチャレンジでの講義である情報理論についてまとめました。
前回の応用数学2講義に比べ、短めの内容となっています。
情報理論についてですが、あまり触れてこなかったため、勉強してみると新鮮で面白かったです。
また例の如く、色々数学的に突っ込みどころがありそうなまとめ方ですが、ご了承ください。。

今回の内容で、応用数学は終了で次回は機械学習になります。
次回、機械学習①:線形回帰モデルについてまとめていきたいと思います。