SSD(Single Shot MultiBox Detector)解構

思想

其實出發點我覺得不難想到，主要基於以下幾點設計出來了SSD的結構：

相對於Faster RCNN家族的兩階段檢測，想一個網路最後直接出兩個head，一個算bbox們的分類loss，一個算bbox相對於標準位置(也就是所謂anchor)的位置偏差loss。而不是像Faster RNN那樣RPN算一次loss(分類回歸都要算)，ROI Pooling後還要再算一次loss。因此提出一階段模型。
既然希望只算bbox相對於標準位置上anchor的一次偏差loss，就需要定義標準anchor的(x0,y0,w,h)，也就自然想到用Faster RCNN的anchor，即從feature map上每個位置出n個不同scale不同aspect ratio的anchor。但faster rcnn是將每個scale和每個aspect ratio都組合，比如3x3=9個anchors，每個位置會出9個anchor會顯得太冗餘了。因此ssd在anchor設定這塊減少了數量。
既然一個網路就要學到bbox位置偏移量，如果是faster rcnn那類只在一種scale上的feature map想檢測出各種大小的ground truth框有點困難了，引入類似FPN的結構，在淺層和深層等不同大小的feature map上都進行預測，這樣能利用不同大小的感受野，檢測到原圖上大小尺寸不同的物體。