UNetFormer：一种类 UNet 结构的 Transformer 用于遥感城市场景图像的高效语义分割

简介

本论文中的模型采用ResNet18作为编码器，并设计了一个全局-局部Transformer模块（GLTB）构建解码器。GLTB开发了一个有效的全局-局部注意力机制，具有一个注意力全局分支和一个卷积局部分支，以捕获全局和局部上下文，用于视觉感知。

0 摘要

翻译

遥感城市场景图像的语义分割在诸多实际应用中都有需求，例如土地覆盖制图、城市变化检测、环境保护以及经济评估等。在深度学习技术快速发展的推动下，卷积神经网络（CNN）多年来在语义分割领域占据主导地位。CNN 采用分层特征表示方法，在局部信息提取方面展现出强大的能力。然而，卷积层的局部特性限制了网络对全局上下文信息的捕捉。近年来，作为计算机视觉领域的热门话题，Transformer 在全局信息建模方面展现出巨大潜力，推动了许多视觉相关任务的发展，如图像分类、目标检测，尤其是语义分割。在本文中，我们提出了一种基于 Transformer 的解码器，并构建了一种类 UNet 结构的 Transformer（UNetFormer）用于城市场景的实时分割。为实现高效分割，UNetFormer 选择轻量级的 ResNet18 作为编码器，并在解码器中开发了一种高效的全局 – 局部注意力机制，以同时建模全局和局部信息。大量实验表明，与最先进的轻量级模型相比，我们的方法不仅运行速度更快，而且精度更高。具体而言，所提出的 UNetFormer 在 UAVid 和 LoveDA 数据集上分别实现了 67.8% 和 52.4% 的 mIoU，同时在单个 NVIDIA GTX 3090 GPU 上，对于 512×512 的输入，推理速度可达 322.4 FPS。在进一步的探索中，所提出的基于 Transformer 的解码器与 Swin Transformer 编码器相结合，在 Vaihingen 数据集上也取得了最先进的结果（91.3% 的 F1 分数和 84.1% 的 mIoU）。源代码将在https://github.com/WangLibo1995/GeoSeg上免费提供。

1、动机：卷积神经网络在局部信息提取方面有着强大的能力，但其能力也限制了网络模型对全局上下文信息的捕捉；但Transformer在全局信息建模方面有着巨大潜力，可以尝试利用Transformer的特性弥补CNN的短板；

2、本文的核心工作：

基于Transformer的解码器，构造一种类UNet结构的Transformer（UNetFormer），并选择轻量级的CNN模型-ResNet18作为编码器，并在解码器中开发了一种高效的全局 – 局部注意力机制，以同时建模全局和局部信息，以此来完成城市场景的实时分割任务；

与此论文之前的最先进的轻量模型相比，本文的UNetFormer模型运行速度更快、精度更高；

结合本文提出的基于Transformer的解码器与Swin Transformer的编码器相结合，达到了更高的效果；

1 引言

翻译

在传感器技术进步的推动下，全球范围内越来越多地获取到高分辨率的遥感城市场景图像，这些图像具有丰富的空间细节和潜在的语义内容。城市场景图像被广泛用于语义分割任务，即像素级的分割和分类，从而衍生出各种与城市相关的应用，包括土地覆盖制图（Li 等，2022b；Maggiori 等，2016；Marcos 等，2018）、变化检测（Xing 等，2018；Yin 等，2018）、环境保护（Samie 等，2020）、道路和建筑物提取（Griffiths 和 Boehm, 2019；Shamsolmoali 等，2020；Vakalopoulou 等，2015）以及许多其他实际应用（Picoli 等，2018；Shen 等，2019）。近年来，深度学习技术（LeCun 等，2015），特别是卷积神经网络（CNN）的浪潮日益增长，主导了语义分割任务（Chen 等，2014；Chen 等，2018b；Long 等，2015；Ronneberger 等，2015；Zhao 等，2017a）。与传统的分割机器学习方法相比，如支持向量机（SVM）（Guo 等，2018）、随机森林（Pal, 2005）和条件随机场（CRF）（Krähenbühl 和 Koltun, 2011），基于 CNN 的方法能够捕捉更精细的局部上下文信息，这为其在特征表示和模式识别方面提供了强大的能力（Zhang 等，2020a；Zhang 等，2020b）。

尽管具有上述优势，但卷积操作由于其固定的感受野，本质上是用于提取局部模式的，缺乏对全局上下文信息或长距离依赖关系的建模能力。对于语义分割任务，如果仅对局部信息进行建模，每个像素的分类往往是模糊的，而借助全局上下文信息，每个像素的语义内容会更加准确（Yang 等，2021a；Li 等，2021c）。全局和局部上下文信息如图 1 所示。尽管自注意力机制在一定程度上缓解了上述问题（Vaswani 等，2017；Wang 等，2018），但它们通常需要大量的计算时间和内存来捕捉全局上下文，从而降低了效率，并限制了其在实时城市应用中的潜力。

在本文中，我们旨在实现精确的城市场景分割，同时确保网络的效率。受 Transformer 在计算机视觉领域最新突破的启发，我们提出了一种类 UNet 结构的 Transformer（UNetFormer）来应对这一挑战。UNetFormer 创新性地采用了混合架构，由基于 CNN 的编码器和专门设计的基于 Transformer 的解码器组成。具体而言，我们采用 ResNet18 作为编码器，并设计了全局 – 局部 Transformer 块（GLTB）来构建解码器。与标准 Transformer 中的传统自注意力块不同，所提出的 GLTB 开发了一种高效的全局 – 局部注意力机制，具有注意力全局分支和卷积局部分支，以捕捉视觉感知中的全局和局部上下文，如图 2 所示。在全局分支中，引入了基于窗口的多头自注意力和十字形窗口上下文交互模块，以低复杂度捕捉全局上下文（Liu 等，2021）。在局部分支中，应用卷积层来提取局部上下文。最后，为了有效地融合空间细节和上下文信息，并进一步细化特征图，我们提出了一个特征精炼头（FRH），并将其附加在网络的末端。精度和效率之间的权衡以及有效的特征精炼使所提出的方法优于最先进的轻量级网络，可用于遥感城市场景图像的高效分割，这在四个公共数据集上得到了证明：UAVid（Lyu 等，2020）、ISPRS Vaihingen 和 Potsdam 数据集，以及 LoveDA（Wang 等，2021a）。

本文的其余部分组织如下：在第 2 节中，我们回顾了基于 CNN 和基于 Transformer 的城市场景分割以及全局上下文建模的相关工作。在第 3 节中，我们介绍了 UNetFormer 的结构，并介绍了所提出的 GLTB 和 FRH。在第 4 节中，我们进行了消融研究，以证明 GLTB 和 FRH 以及新型混合结构的有效性，并将结果与在四个数据集上应用的一组最先进模型进行了比较。在第 5 节中，我们提供了全面的讨论。第 6 节是总结和结论。

图 1. 全局与局部上下文信息示意图。局部上下文信息由卷积（黄色部分）建模，全局上下文信息由长距离窗口级依赖关系（红色部分）建模。

全局、局部

局部上下文信息（local contextual information）：图里用黄色标记的区域，对应卷积建模的信息，是指图像中小范围、相邻或局部关联区域的特征 。比如道路上那组被标记的车辆及周边紧邻区域，聚焦单个 / 小群物体的近距离关联，像车辆的形状、相邻车辆 / 道路的局部特征，是 “近邻细节” 层面的信息。

全局上下文信息（global contextual information）：图里用红色标记（车辆、建筑等通过绿线关联），对应长距离窗口依赖建模的信息，是跨越图像大区域、不同物体 / 区域之间的整体关联和布局 。比如停车场的车与道路上的车、建筑，通过长距离关联，体现整个场景里物体分布规律、不同区域（停车场、道路、建筑区）的关系，是宏观场景层面的信息。

（本论文是应用于高分辨率的遥感城市场景图像的分割任务）

1、卷积受限于固定的感受野，应用于提取局部特征模式，缺乏对全局上下文信息或长距离依赖关系的建模能力，无法满足语义分割任务；

2、自注意力机制虽然可以解决提取全局上下文信息的问题，但是在计算效率方面有所下降；

3、为解决卷积层缺乏对全局上下文信息或长距离依赖关系的建模能力、计算效率方面的问题，结合Transformer在CV领域方面的应用，设计一个UNetFormer模型（类UNet结构的Transformer）；

4、UNetFormer由基于CNN的编码器与本文设计的Transformer的解码器构成。具体而言，用轻量级的ResNet18作为编码器，设计了全局 – 局部 Transformer 块（GLTB）来构建解码器；

GLTB的优势：设计有注意力的全局分支和局部分支，更好地捕捉图像的全局和局部的上下文；

图2 （a）标准Transformer块与（b）全局-局部Transformer块的示意图。

Global branch：全局注意力分支引入了基于窗口的多头自注意力和十字形窗口上下文交互模块提取全局上下文特征；

Local branch：局部注意力分支设计卷积层提取局部特征上下文；

全局注意力分支中的基于窗口的多头注意力机制中的窗口：是将输入的二维特征图分割成的非重叠局部区域（可以理解为对特征图进行的局部区域划分，类似将一张大图分割成多个小方格）；

2 相关工作

2.1 基于 CNN 的语义分割方法

翻译

全卷积网络（FCN）（Long 等，2015）是第一个以端到端方式解决语义分割问题的有效 CNN 结构。从那时起，基于 CNN 的方法在遥感领域的语义分割任务中占据主导地位（Kemker 等，2018；Kotaridis 和 Lazaridou, 2021；Ma 等，2019；Tong 等，2020；Zhao 和 Du, 2016；Zhu 等，2017）。然而，FCN 过于简化的解码器导致分割分辨率粗糙，限制了保真度和准确性。

为了解决这个问题，一种编码器 – 解码器网络，即 UNet，被提出用于语义分割，它具有两个对称的路径，分别称为收缩路径和扩展路径（Ronneberger 等，2015）。收缩路径通过逐渐下采样特征图的空间分辨率来提取分层特征，而扩展路径通过逐步恢复空间分辨率来学习更多的上下文信息。随后，编码器 – 解码器框架成为遥感图像分割网络的标准结构（Badrinarayanan 等，2017；Chen 等，2018a；Sun 等，2019）。基于编码器 – 解码器结构，（Diakogiannis 等，2020；Yue 等，2019；Zhou 等，2018）设计了不同的跳跃连接来捕捉更丰富的上下文，而（Liu 等，2018；Zhao 等，2017b；Shen 等，2019）开发了各种解码器来保留语义信息。

尽管基于编码器 – 解码器的 CNN 方法取得了令人鼓舞的性能，但在城市场景解释方面遇到了瓶颈（Sherrah, 2016；Marmanis 等，2018；Nogueira 等，2019）。具体而言，具有有限感受野的基于 CNN 的分割网络只能提取局部语义特征，缺乏从整个图像中建模全局信息的能力。然而，在高分辨率遥感城市场景图像中，复杂的模式和人工物体频繁出现（Kampffmeyer 等，2016；Marcos 等，2018；Audebert 等，2018）。如果仅依靠局部信息，很难识别这些复杂的物体。

1、UNet，一种编码器 – 解码器网络，包含收缩路径和扩展路径，收缩路径通过逐渐下采样特征图的空间分辨率来提取分层特征，而扩展路径通过逐步恢复空间分辨率来学习更多的上下文信息；

2、但是UNet这种基于编码器-解码器的CNN方法局限于卷积的感受野，在处理城市场景解释方面遇到瓶颈；

2.2 全局上下文信息建模

翻译

为了使网络摆脱 CNN 对局部模式的关注，人们进行了许多尝试来建模全局上下文信息，而最流行的方法是将注意力机制融入网络中。例如，Wang 等人修改了点积自注意力机制，并将其应用于计算机视觉领域（Wang 等，2018）。Fu 等人在扩张 FCN 的顶部附加了两种类型的注意力模块，以自适应地整合局部特征及其全局依赖关系（Fu 等，2019）。Huang 等人提出了一种十字交叉注意力块来聚合信息丰富的全局特征（Huang 等，2020）。Yuan 等人开发了一种对象上下文块来探索基于对象的全局关系（Yuan 等，2020）。

注意力机制也提高了遥感图像分割网络的性能。Yang 等人提出了一种注意力融合网络，融合高层和低层语义特征，在高分辨率遥感图像的语义分割中获得了最先进的结果（Yang 等，2021b）。Li 等人集成了轻量级的空间和通道注意力模块，以自适应地精炼语义特征，用于高分辨率遥感图像分割（Li 等，2020）。Ding 等人设计了一个带有嵌入模块的局部注意力块来捕捉更丰富的上下文信息（Ding 等，2021）。Li 等人开发了一种线性注意力机制，以降低计算复杂度同时提高性能（Li 等，2021a）。然而，上述注意力模块由于过度依赖卷积操作，限制了全局特征表示。此外，单个注意力模块无法在解码器中对多层次语义特征的全局信息进行建模。

1、为解决 CNN 对局部模式的过度关注，建模全局上下文信息的流行方法是融入注意力机制；

2、但是融入的注意力机制又太过依赖于卷积，限制了其提取全局特征的优势，并且单个注意力模块无法在解码器中对多层次语义特征的全局信息进行建模；

2.3 基于 Transformer 的语义分割方法

翻译

近年来，人们尝试将 Transformer 应用于全局信息提取（Vaswani 等，2017）。与 CNN 结构不同，Transformer 将二维图像任务转换为一维序列任务。由于强大的序列到序列建模能力，Transformer 在提取全局上下文方面表现出优于上述仅基于注意力的模型的特性，并在基本视觉任务上取得了最先进的结果，如图像分类（Dosovitskiy 等，2020）、目标检测（Zhu 等，2020）和语义分割（Zheng 等，2021）。在这一推动下，遥感领域的许多研究人员将 Transformer 应用于遥感图像场景分类（Bazi 等，2021；Deng 等，2021）、高光谱图像分类（Hong 等，2021；He 等，2021）、目标检测（Li 等，2022a）、变化检测（Chen 等，2021a），特别是语义分割（Wang 等，2022；Wang 等，2021b）。

大多数现有的用于语义分割的 Transformer 仍然遵循编码器 – 解码器框架。根据不同的编码器 – 解码器组合，它们可以分为两类。第一类是由基于 Transformer 的编码器和基于 Transformer 的解码器构建的，即纯 Transformer 结构。典型的模型包括 Segmenter（Strudel 等，2021）、SegFormer（Xie 等，2021）和 SwinUNet（Cao 等，2021）。第二类采用混合结构，由基于 Transformer 的编码器和基于 CNN 的解码器组成。基于 Transformer 的语义分割方法通常遵循第二种结构。例如，TransUNet 采用混合视觉 Transformer（Dosovitskiy 等，2020）作为编码器以进行更强的特征提取，并在医学图像分割中获得了最先进的结果（Chen 等，2021b）。DC-Swin 引入 Swin Transformer（Liu 等，2021）作为编码器，并设计了一个密集连接的卷积解码器用于高分辨率遥感图像分割，大大超过了基于 CNN 的方法（Wang 等，2022）。（Panboonyuen 等，2021）也选择 Swin Transformer 作为编码器，并利用各种基于 CNN 的解码器，如 UNet（Ronneberger 等，2015）、FPN（Kirillov 等，2019）和 PSP（Zhao 等，2017a），用于遥感图像的语义分割，获得了较高的精度。

尽管具有上述优势，但由于 Transformer 基于编码器的平方复杂度自注意力机制（Vaswani 等，2017），其计算复杂度远高于基于 CNN 的编码器，这严重影响了其在与城市相关的实时应用中的潜力和可行性。因此，为了充分利用 Transformer 的全局上下文提取能力而不导致高计算复杂度，在本文中，我们提出了一种类 UNet 结构的 Transformer，具有基于 CNN 的编码器和基于 Transformer 的解码器，用于遥感城市场景图像的高效语义分割。具体而言，对于我们的 UNetFormer，我们选择轻量级骨干网络，即 ResNet18，作为编码器，并开发了一种高效的全局 – 局部注意力机制来构建解码器中的 Transformer 块。所提出的高效全局 – 局部注意力机制采用双分支结构，即全局分支和局部分支。这种结构允许注意力块同时捕捉全局和局部上下文，从而超越了 Transformer 中仅捕捉全局上下文的单分支高效注意力机制（Liu 等，2021；Zhang 和 Yang, 2021）。

1、Transformer因其强大的序列到序列的建模能力，在提取全局特征方面有着很大的优势；

2、用于语义分割的Transformer的分类：纯 Transformer 结构（基于 Transformer 的编码器和解码器构建）、混合结构（基于 Transformer 的编码器和基于 CNN 的解码器组成）

3、但是，Transformer 基于编码器的平方复杂度自注意力机制的计算复杂度远高于基于CNN的编码器；

4、结合Transformer的优势与局限性，本文的模UNetFormer模型，由轻量级骨干网络ResNet18作为编码器，并开发一种高效的全局 – 局部注意力机制来构建解码器中的 Transformer 块（双分支结构，包含全局分支、局部分支，这种结构可同时捕捉全局特征与局部特征）；

3 方法

翻译

如图 3 所示，所提出的 UNetFormer 由基于 CNN 的编码器和基于 Transformer 的解码器构建而成。以下各节将详细描述每个组件。

图 3. UNetFormer 的整体架构概述

3.1 基于 CNN 的编码器

公式①：

翻译

由于 ResNet18（He 等，2016）在广泛的实时语义分割任务中同时表现出有效性和效率，我们在此选择预训练的 ResNet18 作为编码器，以显著低的计算成本提取多尺度语义特征。ResNet18 由四级 Resblock 组成，每个阶段将特征图的采样率下采样 2 倍。在提出的 UNetFormer 中，每个阶段生成的特征图通过 1×1 卷积（通道维度为 64）与解码器的相应特征图融合，即跳跃连接。具体而言，Resblocks 产生的语义特征与解码器的 GLTB 生成的特征通过加权和操作进行聚合。加权和操作基于两个特征对分割精度的贡献选择性地对它们进行加权，从而学习更具泛化性的融合特征（Tan 等，2020）。加权和操作的公式可表示为：①
其中，FF 表示融合特征，RF 表示 Resblocks 产生的特征，GLF 表示全局 – 局部 Transformer 块生成的特征。

1、采用预训练的 ResNet18 （由四级 Resblock 组成，每个阶段将特征图采样率下采样 2 倍）作为编码器，因其在实时语义分割任务中兼具有效性和效率，能以较低计算成本提取多尺度语义特征；

2、基于全局、局部特征进行加权和操作；

3.2 基于 Transformer 的解码器

翻译

在高分辨率遥感城市影像中，复杂的人工目标频繁出现，若缺乏全局语义信息，难以实现精准的实时分割。为捕捉全局上下文信息，主流解决方案要么在网络末端附加单个注意力模块（Wang 等，2018），要么采用 Transformer 作为编码器（Chen 等，2021b）。但前者无法捕捉多尺度全局特征，后者则会显著增加网络复杂度并丢失空间细节。相比之下，在本文提出的 UNetFormer 中，我们通过三个全局 – 局部 Transformer 块和一个特征 refinement 头构建了轻量级的基于 Transformer 的解码器（如图 3 所示）。这种分层轻量化设计使解码器能够在保持高效率的同时，捕捉多尺度的全局和局部上下文信息。

1、解决无法提取全局语义信息：在网络末端附加单个注意力模块无法捕捉多尺度的全局特征（太依赖于卷积）、采用 Transformer 作为编码器（增加网络复杂度、丢失空间细节）；

2、本文提出的结构：通过三个全局 – 局部 Transformer 块（GLTB，提取全局、局部特征）和一个特征 refinement 头（FRH，对融合后的特征进行精细化处理，提升输出结果的精度和细节质量）构建轻量级基于 Transformer 的解码器；

3.2.1 全局 – 局部 Transformer 块（GLTB）

公式图：

翻译

全局 – 局部 Transformer 块由全局 – 局部注意力、多层感知机、两个批归一化层和两个附加操作组成，如图 1（b）所示。

高效全局 – 局部注意力

尽管全局上下文对复杂城市场景的语义分割至关重要，但局部信息对于保留丰富的空间细节仍然必不可少。对此，本文提出的高效全局 – 局部注意力通过构建两个并行分支，分别提取全局和局部上下文信息，如图 4（a）所示。

局部分支采用较浅的结构，通过两个卷积核大小分别为 3 和 1 的并行卷积层提取局部上下文信息，随后在最终的求和操作前附加两个批归一化操作。

全局分支采用基于窗口的多头自注意力来捕捉全局上下文。如图 4（b）所示，首先通过标准的 1×1 卷积将输入的二维特征图（∈ℝ^(B×C×H×W)）的通道维度扩展至三倍，然后通过窗口划分操作将一维序列（∈ℝ^(3×B×(H/w)×(W/w)×h)×(w×w)×(C/h)）分割为查询（Q）、键（K）和值（V）向量。通道维度 C 设置为 64，窗口大小 w 和头数 h 均设置为 8。基于窗口的多头自注意力的详细内容可参考 Swin Transformer（Liu 等，2021）。

在非重叠的局部窗口内执行自注意力虽然高效，但由于缺乏窗口间的交互，可能破坏城市场景的空间一致性。Swin Transformer 通过引入额外的移位 Transformer 块来挖掘局部窗口间的关系，但这会显著增加计算量。本文提出一种十字形窗口上下文交互模块，以较高的计算效率捕捉窗口间的关系。如图 4（c）所示，该模块通过融合水平平均池化层和垂直平均池化层产生的两个特征图来捕捉全局上下文。具体而言，水平平均池化层建立窗口间的水平关系，例如 Win₁=H (Win₂)。对于窗口 1 中的任意点 P₁^(m,n)，其与窗口 2 中的点 P₂^(m+w,n) 的依赖关系可建模为：（公式图如上(2)(3)(4)(5)）

公式中，其中，w 为窗口大小。D 表示自注意力计算，可建模局部窗口内像素对之间的依赖关系。因此，对于窗口 1 中红色路径上的任意其他点 P₁^(m+i,n)，其与 P₁^(m,n) 的依赖关系可通过式（3）建模。对于窗口 2 中绿色路径上的任意其他点 P₂^(m+w-j,n)，其与 P₂^(m+w,n) 的依赖关系可通过式（4）建模。式（2）可重写为式（5），即建模了 P₁^(m,n) 与 P₂^(m+w,n) 之间的依赖关系。基于这种跨窗口的像素级依赖关系，可建立窗口 1 和窗口 2 之间的水平关系。类似地，可建立窗口 1 和窗口 3 之间的垂直关系，即 Win₁=V (Win₃)，对于窗口 4，Win₁=V (H (Win₄))+H (V (Win₄))。推广到 M×M 的输入（M 表示窗口数量），通过连接更多中间窗口（如窗口 2 和窗口 3），可建模任意两个窗口之间的长距离依赖关系。因此，十字形窗口上下文交互模块能够建模窗口级的长距离依赖关系，从而捕捉全局上下文。

此外，全局分支中的全局上下文与局部分支中的局部上下文进一步聚合，生成全局 – 局部上下文。最后，通过深度卷积、批归一化操作和标准的 1×1 卷积对细粒度的全局 – 局部上下文进行特征表征。

1、全局 – 局部 Transformer 块（GLTB）由全局 – 局部注意力、多层感知机、两个批归一化层和两个附加操作组成；

2、高效全局-局部注意力：通过并行的全局分支、局部分支分别对全局特征、局部特征进行提取，兼顾全局语义关联与局部空间细节；

图4. (a) 高效全局 – 局部注意力的结构

3、局部分支采用较浅的结构，通过两个卷积核大小分别为 3 和 1 的并行卷积层提取局部上下文信息，随后在最终的求和操作前附加两个批归一化操作；

4、全局分支结构采用基于窗口的多头自注意力捕捉全局上下文，输入特征图（∈ℝ^(B×C×H×W)）经 1×1 卷积将通道扩展至三倍，再通过窗口划分生成查询（Q）、键（K）、值（V）向量；（1D sequence就是把输入特征变为序列，变成Transformer块的输入，cross-shaped window content interaction：十字形窗口内容交互，主要用于在保持计算效率的同时，有效捕获窗口间的关系，增强模型对全局上下文的建模能力）

图4. (b) 窗口划分操作示意图说明

5、由于缺乏窗口间的交互，可能破坏城市场景的空间一致性，Swin Transformer 通过引入额外的移位 Transformer 块来挖掘局部窗口间的关系，但这会显著增加计算量，为解决这个问题，本论文提出一种十字形窗口上下文交互模块，以较高的计算效率捕捉窗口间的关系；

图4. (c) 十字形窗口划分操作示意图说明

6、该模块通过融合水平平均池化层和垂直平均池化层产生的两个特征图来捕捉全局上下文，具体而言，水平平均池化层建立窗口间的水平关系；

3.2.2 特征 refinement 头（FRH）

翻译

第一个 ResBlock 产生的浅层特征保留了城市场景丰富的空间细节，但语义内容不足；而深层的全局 – 局部特征提供了精确的语义信息，但空间分辨率较粗。因此，直接对这两种特征进行求和操作虽然速度快，但会降低分割精度（Poudel 等，2018; Poudel 等，2019; Yu 等，2018）。本文设计了特征 refinement 头，以缩小两种特征之间的语义差距，进一步提高精度。

如图 5 所示，首先对两种特征执行加权求和操作，以充分利用精确的语义信息和空间细节。融合后的特征被选为 FRH 的输入，如图 3 所示。其次，构建两条路径以增强通道维度和空间维度的特征表征。具体而言，通道路径采用全局平均池化层生成通道维度的注意力图 C∈ℝ^1×1×c，其中 c 表示通道维度。降维 & 升维操作包含两个 1×1 卷积层，先将通道维度 c 缩减为原来的 1/4，再恢复到原始维度。空间路径利用深度卷积生成空间维度的注意力图 S∈ℝ^h×w×1，其中 h 和 w 表示特征图的空间分辨率。两条路径生成的注意力特征通过求和操作进一步融合。最后，通过一个后处理的 1×1 卷积层和上采样操作生成最终的分割图。值得注意的是，引入残差连接以防止网络退化。

1、存在的问题：第一个 ResBlock 产生的浅层特征保留了城市场景丰富的空间细节，但语义内容不足、而深层的全局 – 局部特征提供了精确的语义信息，但空间分辨率较粗、直接对这两种特征进行求和操作虽然速度快但会降低分割精度；

2、为解决上述问题，本文设计有refinement头，以缩小两种特征之间的语义差距，进一步提高精度；

图 5. 特征精修头（FRH）结构

3、Fused Feature：全局、局部特征融合之后的特征（融合特征）；

4、FRH包含两条路径，以增强通道维度和空间维度的特征表征；

3.3 损失函数

公式图1：

公式图2：

翻译

在训练阶段，除了主特征 refinement 头外，还构建了一个额外的辅助头来优化全局 – 局部 Transformer 块，如图 3 所示。这种多头分割架构在先前的研究中已被证明是有效的（Yu 等，2020; Zhu 等，2019）。基于多头设计，采用主损失和辅助损失来训练整个网络。主损失 Lₚ由 Dice 损失 Lᵈⁱᶜᵉ和交叉熵损失 Lᶜᵉ组合而成，其计算公式如下：（公式图1如上，(6)(7)(8)）

其中，N 和 K 分别表示样本数量和类别数量。y⁽ⁿ⁾和ŷ⁽ⁿ⁾分别表示真实语义标签的独热编码和网络对应的 softmax 输出，n∈[1,⋯,N]，ŷₖ⁽ⁿ⁾是样本 n 属于类别 k 的置信度。选择交叉熵损失作为辅助损失 Lₐᵤₓ，并将其应用于辅助头。辅助头以三个全局 – 局部 Transformer 块的融合特征作为输入，通过一个带批归一化和 ReLU 的 3×3 卷积层、一个 1×1 卷积层和上采样操作生成输出。为了与主损失更好地结合，辅助损失进一步乘以一个因子 α。因此，总损失 L 的计算公式为：（公式图2如上，(9)），其中，α 默认设置为 0.4。

1、除refinement头外，还构建了一个额外的辅助头来优化全局-局部Transformer块；图三中的AH（Auxiliary Head），基于多头设计，采用主损失和辅助损失来训练整个网络；

4 实验

4.1 实验设置

4.1.1 数据集

翻译

UAVid：作为高分辨率无人机语义分割数据集，UAVid 数据集聚焦于城市街道场景，具有两种空间分辨率（3840×2160 和 4096×2160）和 8 个类别（Lyu 等，2020）。由于图像的高空间分辨率、异质空间变化、模糊类别以及复杂场景，UAVid 的分割具有挑战性。具体而言，该数据集包含 42 个序列，共 420 张图像，其中 200 张用于训练，70 张用于验证，官方提供的 150 张用于测试。在实验中，每张图像被填充并裁剪为 8 个 1024×1024 像素的补丁。

Vaihingen：Vaihingen 数据集包含 33 幅超高分辨率 TOP 图像切片，平均大小为 2494×2064 像素。每个 TOP 图像切片具有三个多光谱波段（近红外、红、绿）以及数字表面模型（DSM）和归一化数字表面模型（NDSM），地面采样距离（GSD）为 9 厘米。该数据集包括 5 个前景类别（不透水面、建筑物、低植被、树木、汽车）和 1 个背景类别（杂物）。在实验中，仅使用 TOP 图像切片，不使用 DSM 和 NDSM。测试集使用 ID 为 2、4、6、8、10、12、14、16、20、22、24、27、29、31、33、35、38 的图像，其余 16 张图像用于训练。图像切片被裁剪为 1024×1024 像素的补丁。

Potsdam：Potsdam 数据集包含 38 幅超高分辨率 TOP 图像切片（GSD 为 5 厘米），大小为 6000×6000 像素，类别信息与 Vaihingen 数据集相同。数据集提供四个多光谱波段（红、绿、蓝、近红外）以及 DSM 和 NDSM。测试集使用 ID 为 2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15、7_13 的图像，其余 23 张图像（除去标注有误的 7_10 图像）用于训练。同样，实验中仅使用三个波段（红、绿、蓝），原始图像切片被裁剪为 1024×1024 像素的补丁。

LoveDA：LoveDA 数据集包含 5987 幅高分辨率光学遥感图像（GSD 为 0.3 米），大小为 1024×1024 像素，包括 7 个土地覆盖类别，即建筑物、道路、水体、荒地、森林、农业用地和背景（Wang 等，2021a）。具体而言，2522 张图像用于训练，1669 张用于验证，官方提供的 1796 张用于测试。该数据集涵盖两种场景（城市和农村），采集自中国的三个城市（南京、常州和武汉）。因此，多尺度目标、复杂背景和不一致的类别分布带来了相当大的挑战。

4.1.2 实现细节

翻译

所有实验模型均在 PyTorch 框架下，在单个 NVIDIA GTX 3090 GPU 上实现。为了快速收敛，使用 AdamW 优化器训练所有模型。基础学习率设置为 6e-4，采用余弦策略调整学习率。

对于 UAVid 数据集，训练期间对 1024×1024 大小的输入进行随机垂直翻转、随机水平翻转和随机亮度的数据增强，训练轮次设置为 40，批大小为 8。测试过程中，使用垂直翻转和水平翻转等测试时增强（TTA）策略。

对于 Vaihingen、Potsdam 和 LoveDA 数据集，图像被随机裁剪为 512×512 的补丁。训练期间，采用随机缩放（[0.5, 0.75, 1.0, 1.25, 1.5]）、随机垂直翻转、随机水平翻转和随机旋转等增强技术，训练轮次设置为 100，批大小为 16。测试阶段，使用多尺度和随机翻转增强。

1、所有实验模型均在PyTorch框架下，可放心食用源码~

2、优化器使用的AdamW，基础学习率设置为6e-4，采用预先策略调整学习率；

3、不同数据集的数据预处理不同，见翻译；

4.1.3 评估指标

翻译

实验中使用的评估指标包括两大类。第一类用于评估网络的精度，包括总体精度（OA）、平均 F1 分数（F1）和平均交并比（mIoU）。第二类用于评估网络的规模，包括浮点运算次数（Flops）以评估复杂度，每秒帧数（FPS）以评估速度，内存占用（MB）和模型参数数量（M）以评估内存需求。

4.1.4 对比模型

翻译

选择了一系列基准方法进行定量比较，包括：

（i）为高效语义分割开发的基于 CNN 的轻量级网络：上下文聚合网络（CANet）（Yang 等，2021a）、双边分割网络（BiSeNet）（Yu 等，2018）、ShelfNet（Zhuang 等，2019）、SwiftNet（Oršić 和 Šegvić, 2021）、Fast-SCNN（Poudel 等，2019）、DABNet（Li 等，2019）、ERFNet（Romera 等，2017）和 ABCNet（Li 等，2021c）。

（ii）基于 CNN 的注意力网络：双注意力网络（DANet）（Fu 等，2019）、快速注意力网络（FANet）（Hu 等，2020）、局部注意力网络（LANet）（Ding 等，2021）、十字交叉网络（CCNet）（Huang 等，2020）、多阶段注意力残差 UNet（MAResU-Net）（Li 等，2021a）和多注意力网络（MANet）（Li 等，2021b）。

（iii）用于遥感图像语义分割的基于 CNN 的网络：DST_5（Sherrah, 2016）、V-FuseNet（Audebert 等，2018）、CASIA2（Liu 等，2018）、DLR_9（Marmanis 等，2018）、RoteEqNet（Marcos 等，2018）、UFMG_4（Nogueira 等，2019）、HUSTW5（Sun 等，2019）、TreeUNet（Yue 等，2019）、ResUNet-a（Diakogiannis 等，2020）、S-RA-FCN（Mou 等，2020）、DDCM-Net（Liu 等，2020）、EaNet（Zheng 等，2020a）、HMANet（Niu 等，2021）和 AFNet（Yang 等，2021b）。

（iv）具有基于 Transformer 的编码器和基于 CNN 的解码器的混合 Transformer 网络：TransUNet（Chen 等，2021b）、SwinUperNet（Liu 等，2021）、DC-Swin（Wang 等，2022）、STranFuse（Gao 等，2021）、SwinB-CNN+BD（Zhang 等，2022）、SwinTF-FPN（Panboonyuen 等，2021）、BANet（Wang 等，2021b）、CoaT（Xu 等，2021）、BoTNet（Srinivas 等，2021）和 ResT（Zhang 和 Yang, 2021）。

（v）具有基于 Transformer 的编码器和基于 Transformer 的解码器的纯 Transformer 网络：SwinUNet（Cao 等，2021）、SegFormer（Xie 等，2021）和 Segmenter（Strudel 等，2021）。

1、选择了一系列基准方法进行模型定量比较：为高效语义分割开发的基于 CNN 的轻量级网络、基于 CNN 的注意力网络、用于遥感图像语义分割的基于 CNN 的网络、具有基于 Transformer 的编码器和基于 CNN 的解码器的混合 Transformer 网络；

4.2 消融实验

4.2.1 UNetFormer 的各个组件

翻译

为了分别评估所提出的 UNetFormer 各个组件的性能，在 UAVid、Vaihingen 和 Potsdam 数据集上进行了一系列消融实验。为了公平比较，所有消融研究中均未使用测试时增强策略和辅助损失。结果如表 1 所示。

基线模型：基线模型基于 ResNet18 骨干网络构建 UNet 结构，仅在解码器中建模局部上下文信息。

全局 – 局部 Transformer 块（GLTB）：在基线模型中融入 3 个全局 – 局部 Transformer 块，构建出 “基线模型 + GLTB”。同时，为说明 GLTB 中十字形窗口上下文交互模块的作用，我们移除该模块，对窗口上下文和局部上下文直接执行求和操作，构建简化变体 “基线模型 + GLTB – 求和”。由表 1 可知，GLTB 的引入使 UAVid 验证集的 mIoU 显著提升 3.4%，其中十字形窗口上下文交互模块对精度提升的贡献为 1.0%。此外，“基线模型 + GLTB” 在 Vaihingen 和 Potsdam 测试集上的 mIoU 提升均超过 2.4%，十字形窗口上下文交互模块在这两个数据集上的精度提升贡献分别为 1.2% 和 1.1%。综上，结果不仅验证了 GLTB 的有效性，也表明引入十字形窗口上下文交互模块的必要性。

特征细化模块（FRH）：在 “基线模型 + GLTB” 中加入特征细化头，构成完整的 UNetFormer（记为 “基线模型 + GLTB+FRH”）。由表 1 可见，FRH 的使用使 mIoU 至少提升 1.0%，验证了所提特征细化模块的有效性。

1、在UAVid、Vaihingen 和 Potsdam 数据集上进行消融实验，对基线模型、全局-局部Transformer块（GLTB）、特征细化模块（FRH）等组件进行评估；

表 1. UNetFormer 各组件的消融实验研究。

其中，基准模型（baseline）：该基准模型基于 U-Net 架构构建，采用 ResNet18 作为骨干网络，其解码器中仅对局部上下文信息进行建模。

4.2.2 高效全局 – 局部注意力

翻译

为验证所提高效全局 – 局部注意力的优势，我们用其他先进注意力机制替换该模块，构建 UNetFormer 变体进行消融研究。得益于双分支结构及对全局 – 局部上下文的捕捉，所提全局 – 局部注意力在 UAVid 验证集上实现了最高的 mIoU（70.0%），结果如表 2 所示。此外，所提全局 – 局部注意力在复杂度、内存需求、参数数量和推理速度方面也表现更优。尤其相比 Transformer 中的高效注意力机制（如移位窗口注意力和高效多头自注意力），本文方法精度更高、速度更快。

1、用其他先进注意力机制替换该模块构建 UNetFormer 变体进行消融研究，对比验证高效全局 – 局部注意力的优势；

表 2. 不同注意力机制在 UAVid 数据集上的消融实验结果。我们在单张 NVIDIA GTX 3090 GPU 上，以 1024×1024 的输入尺寸测试并报告了速度指标。列中最佳数值以粗体标出。

4.2.3 网络稳定性

翻译

为评估网络稳定性，我们在不同输入尺寸下训练 UNetFormer，包括 512×512、1024×1024、2048×2048 等正方形输入，以及 512×1024、1024×2048 等长方形输入。表 3 的实验结果显示，UNetFormer 在不同输入尺寸下表现稳定，mIoU 偏差小于 0.7%。1024×1024 的中等输入尺寸在 UAVid 验证集上取得最佳 mIoU。此外，正方形输入的得分相对高于长方形输入，而 2048×2048 等过大的输入尺寸会降低 “人类” 这类极小目标的 IoU。

1、为评估网络稳定性，在不同输入尺寸下训练模型；

表 3. 不同输入尺寸在 UAVid 数据集上的消融实验结果。

4.2.4 编码器选择

翻译

当前基于 Transformer 的分割网络通常采用 Transformer 作为编码器。尽管这种选择在获取精确语义信息方面有一定合理性，但会显著降低网络的执行速度，不适合实时应用场景。为验证这一点，我们用轻量级 Transformer（即 ViT-Tiny（Dosovitskiy 等，2020）、Swin-Tiny（Liu 等，2021）和 CoaT-Mini（Xu 等，2021））替换 ResNet18 编码器进行消融研究（表 4）。结果表明，引入轻量级 Transformer 作为编码器对精度的提升有限（mIoU 提升不超过 0.6%），但会严重降低 UNetFormer 的推理速度。因此，对于实时城市场景分割，采用 ResNet18 等轻量级 CNN 编码器是当前的最佳方案。

1、基于Transformer的编码器存在的问题：当前基于 Transformer 的分割网络常以 Transformer 作为编码器，虽能获取一定精确语义信息，但会显著降低网络执行速度，不适合实时应用场景；

2、验证上述存在的问题，本实验用轻量级 Transformer替换 ResNet18 编码器进行消融研究，实验结果表明：引入轻量级 Transformer 作为编码器对精度的提升有限（mIoU 提升不超过 0.6%），但会严重降低 UNetFormer 的推理速度；

表 4. 不同编码器在 UAVid 数据集上的消融实验结果。复杂度和速度指标基于单张 NVIDIA GTX 3090 GPU 上 1024×1024 的输入尺寸测得。

4.2.5 编码器 – 解码器组合

翻译

为说明本文混合结构在高效语义分割中的优势，我们选择 UNet、SwinUNet 和 TransUNet 在 UAVid 数据集上进行消融实验。由于 SwinUNet 对 GPU 内存需求较大，训练时输入尺寸均设为 512×512。表 5 结果显示，所提 UNetFormer 在复杂度和速度方面显著优于对比网络，同时在 UAVid 验证集上的精度具有竞争力。具体而言，与纯 CNN 结构的 UNet 相比，UNetFormer 的 mIoU 提升 4.3%；与纯 Transformer 网络 SwinUNet 相比，UNetFormer 节省 80% 的计算复杂度。尽管由 Transformer 编码器和 CNN 解码器构成的 TransUNet 在 mIoU 上比本文方法高 0.5%，但因其复杂的 Transformer 编码器，速度慢 7 倍且参数数量多得多。在实时城市应用场景中，高执行速度和轻量模型体积比微小的精度损失更为重要。因此，与其他组合方式相比，本文 “CNN 编码器 + Transformer 解码器” 的混合结构优势显著。

1、为说明本文基于CNN的编码器与基于Transformer的解码器的这种混合结构的优势，本文选择 UNet、SwinUNet 和 TransUNet 在 UAVid 数据集上进行消融实验，考虑SwinNet对GPU内存需求大，训练输入尺寸均设置为512×512；

表 5. 不同编码器-解码器组合在 UAVid 数据集上的消融实验结果。复杂度和速度指标基于单张 NVIDIA GTX 3090 GPU 上 512×512 的输入尺寸测得。

4.3 实验结果

4.3.1 网络效率对比

翻译

复杂度和速度是评估网络的关键指标，尤其在实时城市应用中。我们在 UAVid 官方测试集上，基于 mIoU、GPU 内存占用、复杂度、参数数量和速度，将 UNetFormer 与高效分割网络进行对比。对比结果如表 6 所示。与最快、最浅的模型 Fast-SCNN 相比，所提 UNetFormer 的 mIoU 大幅领先 21.0%；与同量级的先进 CNN 模型相比，UNetFormer 的推理速度达 115.6 FPS，同时 mIoU 超过其他网络 4.0% 以上。值得注意的是，本文方法比先进的混合 Transformer 网络 CoaT 的 mIoU 高 2.0%，速度快 10 倍；比纯 Transformer 网络 Segmenter 的 mIoU 高 9.1%，速度快 7 倍。精度与速度的优异平衡，体现了本文混合结构以及所提 GLTB 和 FRH 的有效性。

1、评估本模型的复杂度和训练速度；

2、表中模型：与最快、最浅的模型 Fast-SCNN、同量级的先进 CNN 模型、先进的混合 Transformer 网络 CoaT、纯 Transformer 网络 Segmenter 进行对比；

表 6. 在 UAVid 测试集上与最先进轻量级网络的定量对比结果。复杂度和速度指标基于单张 NVIDIA GTX 3090 GPU 上 1024×1024 的输入尺寸测得。

4.3.2 在 UAVid 数据集上的结果

翻译

UAVid 是一个大规模城市场景分割数据集，其图像由无人机在不同城市、不同光照条件下拍摄。因此，在该数据集上取得高分割精度具有挑战性。我们训练了多个先进的高效分割网络，并在 UAVid 官方测试集上进行了详细的结果对比。如表 7 所示，本文方法在保持各类别 IoU 优势的同时，取得了最佳的 mIoU（67.8%）。具体而言，所提出的 UNetFormer 不仅比高效 CNN 网络 ABCNet 的 mIoU 高 4.0%，还比近期的混合 Transformer 网络 BANet 和 BoTNet 分别高 3.2% 和 4.6%。值得注意的是，“人类” 类别由于目标极小而难以处理，但 UNetFormer 在该类别上的 IoU 比其他方法至少高 8.6%。此外，UAVid 验证集的分割结果（图 6）和测试集的可视化结果（图 7）也验证了 UNetFormer 的有效性。

表 7. 在 UAVid 测试集上与最先进轻量级模型的定量对比结果。列中最佳数值以粗体标出。

图 6. UAVid 验证集上的分割结果。第一列为输入的 RGB 图像，第二列为参考真值，第三列为本文方法生成的分割图。

图 7. UAVid 测试集结果的放大可视化图。第一列为输入的 RGB 图像，第二列为基准模型的分割结果，第三列为本文方法的分割图。

4.3.3 在 Vaihingen 和 Potsdam 数据集上的结果

翻译

ISPRS Vaihingen 和 Potsdam 是两个广泛用于分割任务的数据集。专门设计的模型在这两个数据集上已取得较高精度。本节将证明 UNetFormer 不仅能超越轻量级模型，还能与领先网络取得竞争性结果。

如表 8 所示，所提 UNetFormer 在 Vaihingen 测试集上的 F1 分数、总体精度（OA）和 mIoU 均排名第一，显著优于其他基于 CNN 和 Transformer 的轻量级网络。值得注意的是，本文方法在 “汽车” 类别上的 F1 分数达 88.5%，超过其他网络至少 1.7%。此外，ID 2 和 22 的预测结果如图 8 所示，结果的放大可视化如图 9（上半部分）所示，均验证了本文方法的有效性。

为全面评估，我们在 Potsdam 数据集上进一步开展实验。如表 9 所示，UNetFormer 在 Potsdam 测试集上取得 92.8% 的平均 F1 分数和 86.8% 的 mIoU。结果不仅超过优秀的卷积轻量级网络 ABCNet（Li 等，2021c），还优于近期的基于 Transformer 的轻量级网络（如 Segmenter（Strudel 等，2021）和 BANet（Wang 等，2021b））。我们还提供了 ID 3_14 和 2_13 的分割结果（图 9）以及结果的放大可视化（图 10 下半部分），以展示网络的优异性能。

表 8. 在 Vaihingen 测试集上与最先进轻量级网络的定量对比结果。列中最佳数值以粗体标出。

表 9. 在 Potsdam 测试集上与最先进轻量级网络的定量对比结果。列中最佳数值以粗体标出。

图 8. Vaihingen 测试集中 ID 为 2 和 22 的样本可视化结果。第一列为输入的 RGB 图像，第二列为真值标签，第三列为所提出的 UNetFormer 的分割结果。

图 9. Potsdam 测试集中 ID 为 3_14 和 2_13 的样本可视化结果。第一列为输入的 RGB 图像，第二列为真值标签，第三列为所提出的 UNetFormer 的分割结果。

图 10. Vaihingen 测试集（上）和 Potsdam 测试集（下）结果的放大可视化图。

4.3.4 在 LoveDA 数据集上的结果

翻译

为进一步评估 UNetFormer 的性能，我们在 LoveDA 数据集上开展了实验。得益于对全局 – 局部上下文的捕捉，UNetFormer 能够很好地处理 LoveDA 数据集中的城市和农村场景。对比结果如表 10 所示。值得注意的是，UNetFormer 以最低的复杂度和最快的速度取得了最高的 mIoU（52.4%）。可视化对比结果如图 11 所示。

表 10. 在 LoveDA 测试集上与其他网络的定量对比结果。复杂度和速度指标基于单张 NVIDIA GTX 3090 GPU 上 1024×1024 的输入尺寸测得。列中最佳数值以粗体标出。

图 11. LoveDA 验证集上的可视化对比结果。

5 讨论

5.1 全局 – 局部上下文

翻译

所提高效全局 – 局部注意力的双分支结构优势在于，能够在提取充足全局上下文信息的同时保留细粒度局部信息。为验证这一点，我们在图 12 中可视化了高效全局 – 局部注意力的特征图。可以看出，局部分支提取的局部上下文保留了丰富的局部特征，但缺乏空间一致性；而全局分支捕捉的全局上下文具有更一致的特征，但缺乏局部性。同时，对于全局分支，在局部窗口内执行自注意力操作会导致窗口上下文出现锯齿边缘。我们通过引入十字形窗口上下文交互模块进行上下文聚合解决了这一问题。通过这种方式，窗口间的交互得到增强，锯齿问题得以解决。值得注意的是，提取的兼具局部性和空间一致性的全局 – 局部上下文，明显优于单一的全局上下文或局部上下文。

1、所提高效全局 – 局部注意力的双分支结构优势在于：它能够在提取充足全局上下文信息的同时保留细粒度局部信息；

2、证明全局 – 局部注意力的双分支结构的优势：对比局部上下文、窗口上下文、全局上下文及全局-局部上下文的可视化结果；

图 12. 所提出的高效全局-局部注意力中，局部上下文、窗口上下文、全局上下文及全局-局部上下文的可视化结果。

5.2 模型效率

翻译

所提 UNetFormer 采用 “CNN 编码器 + Transformer 解码器” 的混合结构实现实时性能。这种混合设计相比其他编码器 – 解码器组合具有显著优势（表 5）。此外，高效全局 – 局部注意力模块通过十字形窗口上下文交互模块替代移位窗口注意力捕捉跨窗口关系，进一步提升了效率（表 2）。精度与效率之间的优异平衡带来了诸多优势，例如 UNetFormer 有望用于实时无人机影像处理，实现城市环境感知与监测。

1、本论文采用基于CNN的编码器与Transformer的解码器，这种混合设计相比其他组合更有优势（表5）；

2、通过十字形窗口上下文交互模块替代移位窗口注意力捕捉跨窗口关系，进一步提高了高效全局 – 局部注意力模块的效率（表2）；

5.3 基于 Transformer 的编码器

翻译

如表 4 和表 5 所示，Transformer 作为编码器性能强劲，但会大幅降低速度。尽管基于 Transformer 的编码器不适合实时应用，但在追求高精度方面具有优势。因此，我们构建了全 Transformer 网络（FT-UNetFormer），以进一步探索所提基于 Transformer 的解码器潜力。为与同水平最先进模型对比，我们将轻量级 ResNet18 编码器替换为 Swin Transformer（Swin-Base）（Liu 等，2021）。如表 11 所示，FT-UNetFormer 在 Vaihingen 测试集上取得了最先进结果（91.3% F1 分数和 84.1% mIoU），F1 分数至少超过其他网络 0.3%。在 Potsdam 数据集上，本文方法也取得了竞争性结果（表 12）。这些结果进一步验证了所提基于 Transformer 的解码器的有效性及其在全 Transformer 结构中的潜力。

1、表4、表5数据说明了Transformer 作为编码器性能强劲，但会大幅降低速度；

2、验证本文基于 Transformer 的解码器的有效性及其在全 Transformer 结构中的潜力；

表 11. 与最先进网络在 Vaihingen 测试集上的定量对比结果。

表 12. 与最先进网络在 Potsdam 测试集上的定量对比结果。

3、在 Potsdam 数据集上，本文方法也取得了竞争性结果；

6 结论

翻译

在本文中，我们提出了一种新颖的基于 Transformer 的解码器，并构建了类 UNet 结构的 Transformer（UNetFormer），用于遥感城市场景影像的高效语义分割。由于局和局部上下文对于城市场景分割均至关重要，我们设计了全局 – 局部 Transformer 块（GLTB）来构建解码器，并开发了特征细化头（FRH）以优化提取的全局 – 局部上下文。为实现高效分割，所提出的基于 Transformer 的解码器与轻量级 CNN 编码器相结合。在 ISPRS Vaihingen、Potsdam、UAVid 以及 LoveDA 数据集上进行的一系列基准实验和消融研究，验证了该方法在实时城市应用中的有效性和高效性。此外，所提出的基于 Transformer 的解码器在全 Transformer 结构中也表现优异，在 Vaihingen 数据集上取得了最先进的性能。未来研究中，我们将继续探索 Transformer 在地理空间视觉任务中的潜力和可行性。

1、本文提出一种基于CNN的编码器+基于Transformer的解码器的混合架构，并构建类UNetr的UNetTransformer模型；

2、关键设计有：全局-局部Transformer块（GLTB）、特征细化头（FRH）；

3、实验验证：在 ISPRS Vaihingen、Potsdam、UAVid 及 LoveDA 数据集上进行基准实验和消融研究，验证了该方法在实时城市应用中的有效性和高效性；

4、所提出的基于Transformer的解码器在全 Transformer 结构中表现优异，在 Vaihingen 数据集上取得最先进性能；

5、继续探索 Transformer 在地理空间视觉任务中的潜力和可行性；

简介