訓練語義分割模型時，輸入圖片的尺寸為什麼是固定的？

最近因為項目需要看了一些語義分割（如FCN、U-Net、SegNet等）的論文，然後在github上找了相關的實現代碼。在看代碼的時候發現，訓練階段，代碼作者都將圖片的輸入尺寸固定了，但是按論文裡面的說法，全卷積的目的就是為了能夠接受任意尺寸的輸入，既然這樣，為什麼很多代碼是將輸入尺寸固定的？

全卷積的目的就是為了能夠接受任意尺寸的輸入

全連接層要求固定的輸入維度。而不同大小的圖像，卷積模塊（卷積+非線性激活+池化）輸出的特徵映射維度是不一樣的。而你提到的FCN、U-Net、SegNet，都是全卷積神經網路（fully convolutional neural network）。實際上，FCN的全稱就是Full Convolutional Networks（全卷積網路）。這些網路用卷積層替換掉了全連接層，這就支持了任意大小的輸入圖像。