ラビットチャレンジ【深層学習Day4】～応用技術～

現在もより精度よく、より高速で、より軽量になるようなモデルが開発・研究されている

最新のモデルや論文を知っていることは大切である

この章では以下の項目を学んだ

・MobileNet

・DenceNet

・Layer正規化/Instance正規化

・Wavenet

・GhostNet(appendix)

一般のCNNの畳み込み層の計算量はカーネルサイズ×入力画像解像度×チャネル数×カーネル枚数で計算され、計算が非常に多くなる

Depthwise ConvolutionとPointwise Convolutionの組み合わせで軽量化を実現したモデル

f:id:Maruring:20210717203235p:plain

Depthwise Convolution

計算量は

カーネルサイズ×入力画像解像度×チャネル数で計算される

f:id:Maruring:20210717203413p:plain

Pointwise Convolution

計算量は

カーネル枚数×入力画像解像度×チャネル数で計算される

f:id:Maruring:20210717203555p:plain

ResNetのRident blockの同じようにDenceBlockを追加した構造をしている

入力チャネル数が加算されていくので、DenceBlock後の畳み込み層やプーリング層といったTransion Layerという層でチャネル数を戻している

f:id:Maruring:20210717213713p:plain

正規化の方法として「Batch Norm」、「Layer Norm」、「Instance Norm」がある

Batch Norm

ミニバッチに含まれるsampleの同一チャネルが同一分布に従うよう正規化

ミニバッチ数が少ないと学習が収束しない問題がある

f:id:Maruring:20210717214654p:plain

Layer Norm

それぞれのsampleの全てのpixelsが同一分布に従うよう正規化

f:id:Maruring:20210717214834p:plain

Instance Norm

さらにchannelも同一分布に従うよう正規化

f:id:Maruring:20210717214926p:plain

生の音声波形を生成する深層学習モデル

Dilated convolutionを適用することでパラメータに対する受容野を多くできる

f:id:Maruring:20210717215307p:plain

特徴マップの冗長性に着目し、少数の特徴マップに単純な線形変換を施し、特徴マップを生成することで畳み込みのフィルター数を減らすことができる。

Ghost moduleが入っており、Ghost moduleを適用したモデルは理論的にはサイズはs倍軽量になり、推論はｓ倍高速になる。