Maruringの日記

ラビットチャレンジ【応用数学】～情報理論～

勉強

概要

データの扱い方は機械学習や深層学習を扱ううえで重要である

この章では以下の項目を学んだ

・自己情報量

・シャノンエントロピー

・カルバック・ライブラー　ダイバージェンス

・交差エントロピー

自己情報量

あることがどれほど起こりにくいかを表す尺度。機械学習での2つの確率分布の隔たりを表すのに使用する

log(対数)を取る理由としては数が大きくなり過ぎたり、小さくなり過ぎたりすると分かりづらく、計算が面倒になるからである

f:id:Maruring:20210714121131p:plain — 対数の底に2をとった場合の自己情報量(bit)

シャノンエントロピー

自己情報量の期待値

f:id:Maruring:20210714121639p:plain

カルバック・ライブラー　ダイバージェンス

同じ事象・確率変数において異なる確率分布P,Qの違いを示す

f:id:Maruring:20210714121923p:plain

重要な2つの特性

①同じ確率分布では0となる

②常に0を含む正の値となり、確率分布が似ていない程、大きな値となる

交差エントロピー

カルバック・ライブラー　ダイバージェンスの一部を取り出したもの

Qについての自己情報量をPの分布で平均している