ラビットチャレンジ【深層学習Day4】~物体検知・セグメンテーション~

概要

物体検知やセグメンテーションは今まで学習した画像認識より複雑なタスクになる

モデルの精度を測定するためには適したデータセットを選択する必要がある

また性能を評価する指標も理解する必要がある

物体検知のフレームワークは色色あるため用途によって選択する

この章では以下の項目を学んだ

・物体検知・セグメンテーションの基本

・代表的なデータセット

・評価指標

・物体検知のフレームワーク

SSD

・その他の工夫

物体検知・セグメンテーションの基本

物体認知タスクは以下のように4つに分けることができる。

また、一般的な物体認知における出力では「物体の位置」+「その物体が何%であるかの確率」を表現する

f:id:Maruring:20210718113038p:plain

代表的なデータセット

代表的なデータセットは以下のようなものがある

f:id:Maruring:20210718113513p:plain

評価指標

物体検出においてはクラスラベルだけでなく物体位置の予測精度お評価する必要がある

評価指標としてはIntersection over Union(以下、IoU)、Average Precison(以下、AP)があり以下のように評価できる

IoU

f:id:Maruring:20210718113853p:plain

AP

課題としては5枚の写真があり、すべてに1台の写真が写っているとする。APの計算は以下のようになる

f:id:Maruring:20210718115008p:plain

f:id:Maruring:20210718115042p:plain

11点で代表点をとると以下のような計算になる


AP = {1\over{11}} * (P(0) + P(1)+...+P(1.0)) = {1\over{11}} * (1.0*5 + 0.57*4 + 0.5*2) = {1\over{11}}*8.243=0.753

これは「人」に対するAPなので全ての対象に対するAPの平均mAPは全対象のAPを足してクラス数でわる

物体検知のフレームワーク

f:id:Maruring:20210718120148p:plain

SSD(Single Shot Detector)

VGG-16をベースネットワークにしており、ベースネットワークから全結合層を取り切り、畳み込み層を追加したもの

デフォルトボックスをたくさん用意してデフォルトボックスで予測したスコアと位置を正解ボックスの位置とラベルを比較しながらデフォルトボックスを修正して正解ボックスに近づけていく

特徴マップのサイズを変更していくことで、サイズの異なる物体を検出することができる

f:id:Maruring:20210718125240p:plain

f:id:Maruring:20210718125252p:plain

その他の工夫

Non-Maximum supprssion

f:id:Maruring:20210718125529p:plain

Hard Negative Mining

f:id:Maruring:20210718125555p:plain