传统CNN模型(如AlexNet、GoogLeNet、ResNet等)都主要包括两大部分:卷积层、全连接层,前部分卷积层用来提取输入图像的特征,后部分全连接层读取所提取的特征,可以实现对图像一个整体类别的判断,但无法得出所预测类别的具体位置(具体像素区块)(即无法深入判断像素的所属类别)。(输入图像,输出预测值)
为能确定图像中每个像素的类别,FCN改编传统CNN模型为全卷积神经网络(去除了全连接层),全连接层被替换为卷积层和上采样层,被替换成的卷积层继续处理特征图,保留每个像素的位置信息(理解为进一步提取每个像素的特征),而上采样的作用即是等比恢复图像尺寸,将每个像素还原到原本的位置(卷积层处理会把图像变得越来越小),输出的结果是一张与输入图像同尺寸的图像,图像中包含对每个像素所属类别的预测值。(输入图像,输出预测值)
以上仅个人理解。