CFFormer: A Cross-Fusion Transformer Framework for the Semantic Segmentation of Multisource Remote Sensing Images | IEEE Journals & Magazine | IEEE Xplore

CFFormer：一种用于多模态遥感影像语义分割的交叉融合Transformer框架

期刊IEEE TGRS

出版日期2024.12.09

0 摘要

翻译

多源遥感影像（RSI）可捕捉地物的互补信息，用于语义分割任务。然而，不同传感器获取的多模态数据之间可能存在不一致性和干扰噪声。因此，如何有效降低不同模态间的差异与噪声，并充分利用其互补特征，是一项关键挑战。本文提出一种通用的交叉融合 Transformer 框架（CFFormer），用于多源遥感影像的语义分割。该框架采用并行双流结构，分别从不同模态中提取特征；引入特征校正模块（FCM），通过结合另一模态的特征，从空间和通道两个维度对当前模态的特征进行校正；在特征融合模块（FFM） 中，采用多头交叉注意力机制实现不同模态特征的全局交互与融合，从而充分利用多源遥感影像中的互补信息。最后，对比实验表明，与当前先进的多源遥感影像语义分割网络相比，所提 CFFormer 框架不仅实现了最先进（state-of-the-art, SOTA）的精度，还展现出优异的鲁棒性。具体而言，在 WHU-OPT-SAR 数据集上，CFFormer 的平均交并比（mean Intersection over Union, mIoU）达到 58%，总体精度（Overall Accuracy, OA）达到 85.35%，分别比排名第二的网络高出 4.71% 和 1.74%；在 Vaihingen 和 Potsdam 数据集上，CFFormer 同样取得最优结果，其 mIoU 和 OA 分别为 84.31%/91.88% 和 88.62%/92.64%。源代码已开源，链接为：https://github.com/masurq/CFFormer。

1、（动机）多源遥感影像可捕捉地物的互补信息，用于语义分割任务，然而不同传感器获取的多模态数据之间可能存在不一致性和干扰噪声。（如何有效降低不同模态间的差异与噪声并充分利用其互补特征是本文需要面临的关键挑战）

2、（成果）本文提出一种通用的多模态交叉融合Transformer架构（CFFormer）、引入特征校正模块（FCM）、特征融合模块（FFM）。

3、在数据集WHU-OPT-SAR、CFFormer、Vaihingen、Potsdam上展开实验。

代码已开源！！！！

1 引言

翻译

遥感影像（RSI）语义分割为各类遥感影像应用场景提供支撑，例如土地覆盖分类 [1,2,3]、土地规划 [4]、城市规划 [5,6,7] 和道路提取 [8,9] 等，已成为遥感数据处理领域的研究热点。在各类数据源中，光学遥感影像因空间分辨率高、光谱信息丰富、易于解译理解且获取成本相对较低，应用最为广泛。然而，随着遥感技术的不断发展，光学影像在复杂场景下的语义分割任务中面临挑战。例如，光学遥感影像易受云层或恶劣天气影响，导致分割精度大幅下降 [10]。因此，单一遥感数据源通常难以满足不同任务的需求 [11]。

随着多源遥感数据的获取日益便捷 [12,13]，综合利用光学影像与其他模态影像的互补信息，已成为解决上述问题的方案之一 [14]。例如，数字表面模型（DSM）可提供地球表面地物的高程信息 [15]，而合成孔径雷达（SAR）可提供丰富的幅度和相位几何信息，且不受光照和天气条件限制 [16,17,18]。此外，部分地物在光谱信息中可能表现出相似的类间外观：如图 1（a）所示，村庄和城市区域在光学影像中难以区分，但在 SAR 影像中可清晰辨别；类似地，图 1（b）中树木和低矮植被在光学影像中外观相近，但由于高程差异，二者在 DSM 影像中可明确区分。因此，利用多源遥感影像的互补信息，突破单源影像的局限，提升分割结果的稳定性和鲁棒性，是当前的重要研究方向。

随着深度学习的兴起，基于深度学习的多源遥感影像语义分割研究受到越来越多的关注。早期深度学习方法通常直接提取不同模态的像素值，输入多层感知器（MLP）进行像素级分类，再通过聚合分类结果得到最终预测 [19,20,21]。尽管这些方法优于传统特征工程技术，但忽略了像素周围空间区域的上下文关联。为解决这一问题，后续深度学习方法引入了卷积神经网络（CNN）[22,23]。这类方法通过 CNN 提取影像局部区域特征，并采用复杂的特征融合策略整合不同模态间的互补信息，从而提升模型精度。例如，V FuseNet [24] 探究了光学与 DSM 数据在早期融合和晚期融合下的分类性能；密集连接全卷积网络（DFCN）[25] 将 DSM 数据作为补充信息，构建结合密集连接和全卷积网络（FCN）思想的多模态网络，并通过多尺度滤波器拓宽网络；密集注意力 – 相似性融合网络（DASFNet）[26] 采用余弦相似度结合门控机制，融合红外 – 红 – 绿光学数据与 DSM 数据，以利用各数据源的互补性。在光学与 SAR 数据融合方面，MBFNet [27] 通过双线性池化操作建立光学特征与 SAR 特征的二阶关联；基于交叉注意力机制和开源光学 – SAR 土地利用分类数据集，研究者提出了多模态交叉注意力网络（MCANet）[10]；交叉融合网络（CFNet）[28] 引入具有双向信息流的交叉门模块，以充分挖掘不同模态的互补信息。然而，这些方法仅采用相对简单的全局多模态交互策略，难以很好地泛化到不同模态组合场景。

此外，CNN 卷积操作固有的局限性使其难以实现性能的大幅提升，因此越来越多研究者将目光转向基于 Transformer 的方法。这类方法借助创新框架提升解译精度。Transformer 架构 [29] 是一种更强的全局特征提取网络，它将二维影像任务转化为一维序列任务，并利用自注意力机制的优势提取全局上下文信息，在目标检测 [30]、影像分类 [31]、语义分割 [32] 等基础视觉任务中取得 SOTA 结果。受此启发，遥感领域的许多研究者将 Transformer 架构应用于单源遥感影像的语义分割任务 [33,34,35,36]。然而，对于多源遥感影像，大多数语义分割网络仍基于 CNN 架构，而卷积滤波器难以在像素密集的多模态影像中建立长距离关联，限制了模型性能。此外，由于不同遥感传感器模态的差异，多模态数据的表示往往存在显著不一致性 [37,38]；同时，各类噪声也可能导致多模态数据间的相互干扰。对此，可利用 Transformer 建模长距离关联的能力，实现全局多模态交互策略，从而更好地挖掘跨模态互补特征的潜力。

为解决多模态数据互补信息利用不充分以及 CNN 难以建立多模态影像长距离关联的问题，本文提出一种新颖的交叉融合 Transformer 框架（CFFormer），旨在联合利用光学遥感数据与其他多模态遥感数据（如 SAR 或 DSM 数据）进行语义分割。CFFormer 采用基于 Transformer 模型的双流架构，分别从光学模态和其他模态中提取特征。为充分利用提取的多模态特征，本文设计了特征校正模块（FCM）和特征融合模块（FFM）：FCM 通过不同模态间的空间和通道相关性，校正各模态的局部空间特征和全局语义特征，以缓解两种模态间的差异与干扰噪声，引导它们关注彼此的互补信息；FFM 进一步增强并融合两组校正后的模态特征，通过嵌入新提出的高效交叉注意力机制，在全局尺度捕捉不同模态间的交互，从而充分利用多模态数据的互补信息。本文的主要贡献如下：

1）提出 CFFormer 作为遥感影像语义分割的多模态框架，通过 FCM 和 FFM 从特征图序列视角实现多源遥感影像信息的交互与融合。

2）提出一种基于自注意力机制的高效多头交叉注意力机制，旨在充分捕捉不同模态间的复杂交互；此外，通过引入额外卷积降低计算复杂度和内存需求。

3）提出一种高效的特征校正模块，通过不同模态的空间和通道相关性，自适应优化并滤除各模态间的差异与噪声干扰；该模块借助跨模态互补信息，提升多模态特征的提取与融合效果。

4）在多模态数据集（ISPRS Vaihingen、Potsdam 和 WHU-OPT-SAR）上进行大量实验，结果表明所提框架不仅在光学与 SAR 数据的语义分割中表现优异，在光学与 DSM 数据的语义分割任务中同样具备强大能力。

本文其余部分结构如下：第 2 章介绍 CFFormer 的整体框架，并详细描述各组件；第 3 章提供大量实验结果与深入分析；第 4 章通过可视化讨论所提方法的有效性与原理；最后，第 5 章总结研究工作并指出未来可能的研究方向。

1、综合利用光学影像与其他模态影像的互补信息，提升模型分割精度。

2、本文的贡献：

1）提出 CFFormer 作为遥感影像语义分割的多模态框架，通过 FCM 和 FFM 从特征图序列视角实现多源遥感影像信息的交互与融合。
2）提出一种基于自注意力机制的高效多头交叉注意力机制，旨在充分捕捉不同模态间的复杂交互；此外，通过引入额外卷积降低计算复杂度和内存需求。
3）提出一种高效的特征校正模块，通过不同模态的空间和通道相关性，自适应优化并滤除各模态间的差异与噪声干扰；该模块借助跨模态互补信息，提升多模态特征的提取与融合效果。
4）在多模态数据集（ISPRS Vaihingen、Potsdam 和 WHU-OPT-SAR）上进行大量实验，结果表明所提框架不仅在光学与 SAR 数据的语义分割中表现优异，在光学与 DSM 数据的语义分割任务中同样具备强大能力。

2 方法

2.1 所提CFFormer框架

翻译

本文提出一种基于 Transformer 模型的新型网络框架，通过 FCM 和 FFM 促进异源数据源的融合，实现更精准的语义分割。算法框架如图 2 所示。具体而言，该方法基于经典的编解码器架构：编码器包含无权重共享的特征提取网络、用于滤除各模态噪声与差异的 FCM，以及用于增强信息交互与融合的 FFM；解码器部分通过聚合多尺度特征生成最终结果。此外，也可采用 ResNet 等其他常用网络作为特征提取网络的替代方案。

（注：图 2 为 CFFormer 框架图，输入包含两个分支，分别为光学影像和 SAR/DSM 影像；经过 BiFormer 的 4 层编码器后，双分支每一层的输出均经过 FCM 模块进行特征校正和 FFM 模块进行特征融合；编码器的输出经解码器上采样后生成分割图。）

图 2. CFFormer 框架。我们模型的输入包含两个分支，一个分支为光学图像，另一个分支为合成孔径雷达（SAR）图像或数字表面模型（DSM）图像。经过 Biformer 的 4 层编码器后，双分支中每层的输出会通过特征校正模块（FCM）进行特征校正，并通过特征融合模块（FFM）进行特征融合。编码器的输出经解码器上采样后生成分割图。

1、模型流程整体架构可分为三个核心部分，输入、编码器、解码器

输入模型接收两个分支的输入，一个分支为光学图像（Optical），另一个分支为SAR/DSM图像（合成孔径雷达/数字表面模型图像）
编码器包含四层双分支结构，每层引入两个关键模块，两个分支的图像依次经过这4层Layer+FCM+FFM的处理，完成特征的深度编码，并通过跳跃连接分别传入到编码器中，其中FCM为特征校正模块，对双分支对应层的特征进行校正，提升特征表达的准确性，FFM为特征融合模块，对校正后的双分支特征进行融合，实现多模态信息的交互。
解码器负责将编码后的特征上采样（Unsampling，红色剪头标识），并还原成分割图，其中包含线性层Linear对各层编码特征进行线性转换，Concatenate（⊕，特征拼接）将多尺度特征融合，以及卷积、反卷积、ReLU激活函数，批归一化BN操作：逐步恢复图像分辨率，最终生成分割图。

2.2 编码器

翻译

编码器由特征提取、特征校正和特征融合三部分组成。采用两个预训练的基于 Transformer 的 BiFormer 网络 [39] 作为骨干网络，以并行方式从多模态遥感数据中提取特征。BiFormer 包含 4 个阶段，每个阶段将特征图下采样 2 倍。在后续的校正与融合过程中，充分利用每个阶段的下采样特征，通过获取的多层次、多尺度特征表示，更好地捕捉影像信息。FCM 包含空间维度和通道维度的特征校正，利用不同模态在空间和通道维度的相关性，校正各自的特征信息；FFM 通过交叉注意力机制进一步深化并融合校正后的多模态特征，在全局范围内增强每个像素间的信息交互。各模块的细节将在后续小节中详细介绍。

1、采用两个预训练的基于Transformer的BiFormer网络作为骨干网络。

2.2.1 特征校正模块 FCM

翻译

由于不同传感器在数据获取过程中的物理原理和测量方式存在差异，不同模态往往表现出显著的外观差异 [37,38]，且易受各类噪声影响。然而，场景中的相邻区域在不同模态间具有空间和几何一致性；同时，场景内的语义结构在不同模态中会在一定程度上得以保留（例如，建筑物在光学影像中轮廓清晰，在 SAR 影像中后向散射强度高，在 DSM 影像中高程值大）。这种空间一致性和语义关联性使得不同模态的信息具有局部空间相关性和全局语义相关性。因此，本文提出包含空间校正和通道校正的 FCM，通过空间相关性和通道相关性自适应校正并滤除不同模态间的差异与干扰噪声，使其更聚焦于各模态间的互补信息，从而实现更优的多模态特征提取与融合。特征校正的顺序会影响模型精度（详见第 3.4.2 节），本节以 “先空间维度校正、后通道维度校正” 的顺序介绍具体结构（图 3）。

图 3. 特征校正模块（FCM）通过空间和通道相关性自适应地校正并过滤差异，从而增强多模态特征的提取与融合。

1、特征校正模块FCM流程模块分为空间域校正与通道域校正，两个子模块，自适应地校正并过滤多模态特征之间的差异，以增强多模态特征的提取与融合。

空间域校正1）编码器中双分支结构分别输入到模块中的Optical光学图像与合成孔径雷达（SAR）图像或数字表面模型（DSM）图像首先进行特征拼接，将两种模态的输入特征拼接在一起。2）拼接后的特征经过多层感知机，对拼接后的特征进行变换，并使用sigmod函数生成两个用于空间校正的权重图（蓝色与黄色块。3）然后进行特征加权与残差连接（⊗、⊕），用生成的权重图分别对原始图像和SAR/DSM特征进行加权，再通过残差连接加法操作得到空间域校正后的特征。
通道域校正，接收空间域校正子模块的两个输出特征（空间校正后的Optical与SAR/DSM图），1）首先对输入的两模态特征进行特征拼接，对拼接后的后的特征分别进行平均池化A（即Avg Pooling）、标准差池化S（即Std Pooling）、最大池化M（即Max Pooling），并将三种池化操作后的特征进行特征拼接，捕捉通道维度的统计信息。2）然后将拼接后的结果通过多层感知机进行变换，用sigmod函数生成两个用于通道校正的权重图）（蓝与棕色块），然后进行特征加权与残差连接，用权重图分别对空间域校正后的光学特征图和SAR/DSM特征进行加权，再通过残差连接得到最终通道域校正后的特征。

2.2.1.1 空间维度特征校正

翻译

如图 3 左侧所示，设光学影像为\(OPT_{in} \in \mathbb{R}^{H \times W \times C}\)，对应的 SAR 影像为\(SAR_{in} \in \mathbb{R}^{H \times W \times C}\)（SAR 可替换为 DSM 等其他互补模态）。首先将不同模态拼接，然后通过 MLP 层对拼接后的数据进行逐层非线性变换和特征学习，得到特征图\(F^S \in \mathbb{R}^{H \times W \times 2}\)。MLP 层包含两个线性层和一个 ReLU 激活函数，如式（1）和式（2）所示。随后，利用 sigmoid 函数将\(F^S\)的输出范围映射至 [0,1]，并进一步分割为两个空间权重图\(W_{OPT}^S \in \mathbb{R}^{H \times W}\)和\(W_{SAR}^S \in \mathbb{R}^{H \times W}\)，如式（3）所示：

\(F^S = \text{MLP}(2C, 2)\left( \text{Concat}(OPT_{in}, SAR_{in}) \right) \tag{1}\)

\(\text{MLP} = \text{Linear}(C_{mid}, C_{out}) \left( \text{ReLU}\left( \text{Linear}(C_{in}, C_{mid})(\cdot) \right) \right) \tag{2}\)

\(W_{OPT}^S, W_{SAR}^S = \text{Split}\left( \sigma(F^S) \right) \tag{3}\)

其中，\(\text{Linear}(C_{in}, C_{mid})(\cdot)\)表示输入通道为\(C_{in}\)、输出通道为\(C_{mid}\)的线性层；\(\text{ReLU}(\cdot)\)表示 ReLU 函数；\(\sigma(\cdot)\)表示 sigmoid 函数。

输入\(OPT_{in}\)的空间维度校正偏移量，由获取的空间权重图\(W_{SAR}^S\)与对应输入\(SAR_{in}\)逐元素相乘得到，再与\(OPT_{in}\)相加，得到空间维度校正后的特征图\(OPT_{corr}^S\)。此外，引入可训练参数\(\alpha\)（\(0 \leq \alpha \leq 1\)），用于控制空间维度校正和通道维度校正相对重要性的动态权重。在模型训练过程中，该参数会根据两种校正偏移量对分割精度的贡献自动调整，以动态学习两组校正特征的最优融合比例，从而提升模型的适应性和鲁棒性 [40]。校正过程可表示为：

\(\begin{cases} OPT_{corr}^S = OPT_{in} + \alpha \cdot W_{SAR}^S \cdot SAR_{in} \\ SAR_{corr}^S = SAR_{in} + \alpha \cdot W_{OPT}^S \cdot OPT_{in} \end{cases} \tag{4}\)

其中，\(OPT_{corr}^S\)和\(SAR_{corr}^S\)分别表示空间维度校正后的光学和 SAR 特征图；\(W_{OPT}^S\)表示空间维度校正偏移量的权重；\(\alpha\)为空间维度校正阶段的可学习参数。

1、MLP多层感知机包含两个线性层和一个ReLU激活函数（Linear-ReLU-Linear），对特征进行变换，随后使用sigmod函数生成特征权重。

2.2.1.2 通道维度特征校正

翻译

通过空间维度 FCM 校准不同模态的局部信息后，进一步引入通道维度 FCM 进行全局校准。如图 3 右侧所示，首先将经过空间维度特征校正的特征\(OPT_{corr}^S\)和\(SAR_{corr}^S\)拼接，得到\(\overline{X}^C \in \mathbb{R}^{H \times W \times 2C}\)。针对复杂的多模态特征，采用综合池化策略：包括用于捕捉整体平均信息的全局平均池化 [41]、用于捕捉显著特征信息的全局最大池化 [42]，以及用于关注特征变化和分布信息的全局标准差池化。多种池化操作的结合可提供更全面、丰富的特征表示，使模型能够适应不同类型和分布的数据。随后，将这三种池化操作得到的全局特征向量拼接，形成大小为\(\mathbb{R}^{6C}\)的特征图\(Y^C\)；接着通过 MLP 层得到\(F^C \in \mathbb{R}^{2C}\)，并利用 sigmoid 激活函数和分割操作，得到包含全局特征信息的通道权重图\(W_{OPT}^C \in \mathbb{R}^C\)和\(W_{SAR}^C \in \mathbb{R}^C\)。上述过程可总结为：

\(\begin{cases} \overline{X}^C = \text{Concat}(OPT_{corr}^S, SAR_{corr}^S) \\ Y^C = \text{Concat}\left( \text{Avg}(\overline{X}^C), \text{Max}(\overline{X}^C), \text{Std}(\overline{X}^C) \right) \\ F^C = \text{MLP}(6C, 2C)(Y^C) \\ W_{OPT}^C, W_{SAR}^C = \text{Split}\left( \sigma(F^C) \right) \end{cases} \tag{5}\)

其中，MLP 如式（2）所示，包含两个线性层和一个 ReLU 激活函数；\(\text{Avg}(\cdot)\)、\(\text{Max}(\cdot)\)和\(\text{Std}(\cdot)\)分别表示全局平均池化、全局最大池化和全局标准差池化；\(\sigma(\cdot)\)为 sigmoid 函数。

与空间维度特征校正类似，通道维度特征校正可表示为：

\(\begin{cases} OPT_{corr}^{S \rightleftharpoons C} = OPT_{corr}^S + (1-\alpha) \cdot W_{SAR}^C \cdot SAR_{corr}^S \\ SAR_{corr}^{S \rightleftharpoons C} = SAR_{corr}^S + (1-\alpha) \cdot W_{OPT}^C \cdot OPT_{corr}^S \end{cases} \tag{6}\)

其中，\(OPT_{corr}^S\)和\(SAR_{corr}^S\)分别表示空间维度校正后的光学和 SAR 特征图；\(OPT_{corr}^{S \rightleftharpoons C}\)和\(SAR_{corr}^{S \rightleftharpoons C}\)分别表示经过空间维度和通道维度校正后的光学和 SAR 特征图；\(\alpha\)与式（4）中的\(\alpha\)一致，用于控制空间维度校正和通道维度校正的相对重要性；\(W_{SAR}^C\)和\(W_{OPT}^C\)表示通道维度校正偏移量的权重。

1、采用综合池化策略

全局平均池化捕捉整体平均信息
全局最大池化捕捉显著特征信息
全局标准差池化关注特征变化和分部信息

2.2.2 特征融合模块 FFM

翻译

充分利用不同源特征间的互补性是多源语义分割的关键，而这一过程的核心在于有效建模不同模态间的复杂交互。目前，基于深度学习的多模态信息融合方法通常分为三类：基于求和的方法 [24,43]、基于拼接的方法 [44] 和基于交叉注意力机制的方法 [10]。然而，前两种方法不仅会导致特征冗余，使融合结果易陷入局部最优并受噪声干扰，还无法挖掘不同模态间的复杂交互，从而显著降低算法性能 [37]；基于交叉注意力机制的方法虽能通过从不同模态中筛选有效信息、消除冗余来缓解这一问题，且可实现全局信息交互，充分捕捉不同模态数据间的复杂非线性关系，但该方法通常结构复杂、计算开销大。

为解决上述问题，本文提出 FFM 模块：该模块引入交叉注意力模块筛选有效信息，实现全局信息交互，充分捕捉不同模态数据的复杂非线性关系；此外，引入可选参数，使模型能在不同尺度下进行操作。具体而言，对输入序列进行下采样，在处理过程中通过额外的卷积层缩短序列长度 —— 这既能够充分捕捉全局上下文信息，又能降低计算成本，解决高分辨率特征图应用多头注意力机制导致的信息冗余问题，使模型更好地聚焦于重要特征。同时，本文提出一种新颖的多头注意力计算方法，通过重新排序多头注意力机制的查询 – 键 – 值（Query-Key-Value, QKV）计算顺序优化计算维度，从而降低计算负担。具体结构设计如图 4 所示。

假设两种模态校正后的输入分别为\(OPT_{corr}^{S \rightleftharpoons C} \in \mathbb{R}^{H \times W \times C}\)和\(SAR_{corr}^{S \rightleftharpoons C} \in \mathbb{R}^{H \times W \times C}\)，首先将其展平为大小为\(\mathbb{R}^{N \times C}\)的特征序列（其中\(N = H \times W\)）；随后采用交叉注意力机制实现两个特征序列间的全局信息交换。所提框架中的交叉注意力机制基于经典自注意力机制 [29]，自注意力机制的计算公式如下（注：原文此处省略自注意力基础公式，需结合上下文补充）：其中\(Q \in \mathbb{R}^{N \times C}\)、\(K \in \mathbb{R}^{N \times C}\)和\(V \in \mathbb{R}^{N \times M}\)均由输入特征序列通过线性层生成，\(N = H \times W\)为输入序列长度，C为Q和K的维度，M为V的维度。本文中\(C = M\)，为简化符号仅使用C；此外，\(d_{head}\)表示采用多头注意力策略时每个注意力头中特征向量的维度。

式（7）（原文自注意力公式）所示过程的计算复杂度为\(O(N^2)\)，随序列长度呈二次增长。然而，对于具有大尺度特性的遥感影像，这种计算复杂度的二次增长难以接受。为解决这一问题，采用 Xie 等人 [45] 提出的序列缩减方法：通过沿序列长度维度滑动的卷积对该维度进行下采样，得到更小的键向量\(K \in \mathbb{R}^{\frac{N}{R} \times C}\)和值向量\(V \in \mathbb{R}^{\frac{N}{R} \times C}\)（其中R为下采样因子）。由此，矩阵乘法复杂度从\(O(N^2)\)降至\(O(\frac{N^2}{R})\)，有效降低了整体计算复杂度和内存占用。

为提升模型的表达能力，使其更适用于处理复杂的输入关系与模式，进一步引入多头交叉注意力机制。具体而言，首先为光学和 SAR 模态的每个注意力头获取向量：\(Q_{OPT}^i \in \mathbb{R}^{N \times d_{head}}\)、\(K_{OPT}^i \in \mathbb{R}^{\frac{N}{R} \times d_{head}}\)、\(V_{OPT}^i \in \mathbb{R}^{\frac{N}{R} \times d_{head}}\)，以及\(Q_{SAR}^i \in \mathbb{R}^{N \times d_{head}}\)、\(K_{SAR}^i \in \mathbb{R}^{\frac{N}{R} \times d_{head}}\)、\(V_{SAR}^i \in \mathbb{R}^{\frac{N}{R} \times d_{head}}\)（其中i表示注意力头，\(1 \leq i \leq \text{heads}\)，\(\text{heads}\)为注意力头数量；\(d_{head}\)为每个注意力头中特征向量的维度）。随后通过式（8）计算光学和 SAR 模态的注意力矩阵：

\(\begin{cases} S_{OPT}^i = \text{Softmax}\left( \frac{Q_{OPT}^i K_{SAR}^i}{\sqrt{d_{head}}} \right) \\ S_{SAR}^i = \text{Softmax}\left( \frac{Q_{SAR}^i K_{OPT}^i}{\sqrt{d_{head}}} \right) \end{cases} \quad i = 1,2,\dots,\text{heads} \tag{8}\)

将每个头的光学注意力矩阵\(S_{OPT}^i\)与每个头的 SAR 值向量\(V_{SAR}^i\)相乘，得到每个头的校正后光学特征图；随后将所有头的校正后光学特征图沿通道维度拼接，得到最终校正后的光学特征图\(Z_{OPT} \in \mathbb{R}^{N \times C}\)。同理，可得到最终校正后的 SAR 特征图\(Z_{SAR} \in \mathbb{R}^{N \times C}\)。上述过程可总结为式（9）：

\(\begin{cases} Z_{OPT} = \text{Concat}\left( S_{OPT}^i \times V_{SAR}^i \right) \\ Z_{SAR} = \text{Concat}\left( S_{SAR}^i \times V_{OPT}^i \right) \end{cases} \quad i = 1,2,\dots,\text{heads} \tag{9}\)

接下来，将最终校正后的特征图形状转换为\(\mathbb{R}^{H \times W \times C}\)，并与对应的原始输入特征图相加，得到交互增强后的光学特征图和 SAR 特征图。最后，将两种交互增强后的模态特征图拼接，通过类似瓶颈结构的方法实现信息有效融合，缓解因网络深度导致的梯度消失问题 [46]，得到最终融合特征图\(Fuse \in \mathbb{R}^{H \times W \times C}\)。值得注意的是，本文采用深度可分离卷积替代常规 3×3 卷积，在保持模块有效性的同时减少参数数量。

图4.FFM 能有效跨模态提取相关信息以实现全局交互，从而全面捕捉多模态数据内部复杂的非线性关联。

1、特征融合模块FFM流程用于多模态特征的全局交互与非线性关联捕捉，流程可分为多模态特征编码、跨模态注意力交互、特征融合与变换

多模态特征编码输入为Optical光学图像特征与SAR/DSM图像特征，首先对其进行reshape操作调整维度，再通过不同的线性层（conv Linear、Linear）生成多组特征表示，对于两种图像分别生成后续需要的查询、键、值等参数。
跨模态注意力交互通过多头注意力机制实现跨模态特征的全局交互，光学特征的查询与SAR/DSM特征的键与值进行点积运算，经过softmax函数得到注意力权重，再与SAR/DSM特征的值加权（交叉融合），得到跨模态注意力输出；同理，SAR/DSM特征的查询与光学图像特征的键进行交叉融合操作，得到另一个分支的跨模态注意力输出；每条分支输出后经过reshape后均引入残差链接和归一化，保证特征流的稳定性。
特征融合与变换将两路跨模态注意力输出拼接融合后，通过一些列卷积与激活操作完成特征融合，具体依次经过Conv1×1、DWConv3×3（深度可分离卷积）、ReLU激活、Conv1×1，再通过残差连接（Add）和归一化（Norm），最终输出融合后的特征。

2.3 解码器

翻译

为保证模型效率，解码器仅采用简单组件实现，具体步骤如下：首先，将 FFM 输出的多尺度融合特征\(F_{En}^i\)（\(1 \leq i \leq 4\)）通过线性层统一输出通道；然后将特征上采样至原始尺寸的 1/4，并拼接得到\(F_{up}\)；最后，拼接后的特征经两个 1×1 卷积层处理得到\(F_{De}\)，再通过上采样生成最终预测结果P。上述步骤可表示为式（10）：

\(\begin{cases} \hat{F}_{En}^i = \text{Linear}(C_{in}, C)(F_{En}^i) \\ F_{up} = \text{Concat}\left( \text{Upsample}\left( \frac{H}{4} \times \frac{W}{4} \right)(\hat{F}_{En}^i) \right) \\ F_{De} = \text{Conv}_{1 \times 1}(C, C_{cls})\left( \text{Conv}_{1 \times 1}(4C, C)(F_{up}) \right) \\ P = \text{Upsample}(H \times W)(F_{De}) \end{cases} \tag{10}\)

其中，\(\text{Linear}(C_{in}, C_{cls})(\cdot)\)和\(\text{Conv}_{1 \times 1}(C_{in}, C_{cls})(\cdot)\)分别表示输入通道为\(C_{in}\)、输出通道为\(C_{cls}\)的线性层和 1×1 卷积层；\(C_{cls}\)为预测类别数量；\(\text{Upsample}(H \times W)(\cdot)\)表示将输入特征上采样至\(\mathbb{R}^{H \times W}\)大小。

（注：分支数量会影响模型精度，详见第 3.4.5 节。）

3 实验

3.1 数据集描述

3.1.1 WHU-OPT-SAR数据集

翻译

该数据集由武汉大学构建，覆盖中国湖北省 51448.56 km² 区域 [10]，包含 100 对光学影像（RGBN，其中 N 为近红外波段）和 SAR 影像（尺寸为 5556×3704），以及对应的像素级标签。SAR 影像来源于高分三号卫星，采样分辨率为 5 米；光学影像来源于高分一号卫星（采样分辨率为 2 米），通过双线性插值重采样至 5 米分辨率。WHU-OPT-SAR 数据集包含 7 类土地覆盖类型：农田、森林、城市、村庄、水体、道路和其他。为便于模型训练与测试，参照原始数据集 [10] 的留一法策略，采用 80 幅影像用于训练，20 幅用于测试；在网络设计与调试阶段，从训练集中划分 20 幅作为验证集；待网络稳定后，将全部 80 幅用于训练。数据预处理阶段，考虑到 GPU 内存限制，所有影像均被裁剪为 512×512 大小的无重叠子影像。

1、WHU-OPT-SAR 数据集包含 7 类土地覆盖类型：农田、森林、城市、村庄、水体、道路和其他，包含 100 对光学影像和 SAR 影像，以及对应的像素级标签。采用 80 幅影像用于训练，20 幅用于测试；在网络设计与调试阶段，从训练集中划分 20 幅作为验证集；待网络稳定后，将全部 80 幅用于训练。

2、数据预处理阶段，影像均被裁剪为 512×512 大小的无重叠子影像。

3.1.2 Vaihingen数据集

翻译

Vaihingen 数据集 [47] 是国际摄影测量与遥感学会（ISPRS）提供的遥感影像基准数据集，包含 6 类地物：不透水面、建筑物、低矮植被、树木、车辆和杂乱背景 / 背景。该数据集包含 33 幅影像块，空间分辨率为 9 厘米，提供包含近红外、红、绿波段的真彩色正射影像（TOP）；实验中还使用了 Gerke 提供的归一化 DSM 数据 [48]。参照以往研究 [49,50]，采用 ID 为 2、4、6、8、10、12、14、16、20、22、24、27、29、31、33、35、38 的样本作为测试集，剩余 16 个样本在两个不同阶段按不同比例划分为训练集和验证集：网络设计与调试阶段，选择 ID 为 1 和 13 的样本作为验证集，其余作为训练集；待网络稳定后，将全部 16 个样本作为训练集，不使用独立验证集。数据预处理阶段，考虑到 GPU 内存限制，每幅影像按 128×128 的步长重叠划分为 256×256 大小的子影像。

1、Vaihingen 数据集包含 6 类地物：不透水面、建筑物、低矮植被、树木、车辆和杂乱背景 / 背景。

2、数据预处理阶段，每幅影像按 128×128 的步长重叠划分为 256×256 大小的子影像。

3.1.3 Potsdam数据集

翻译

Potsdam 数据集 [51] 是 ISPRS 提供的另一遥感影像基准数据集，类别与 Vaihingen 数据集一致，包含 38 幅超高分辨率 TOP 影像块（5 厘米分辨率），每幅尺寸为 6000×6000 像素。该数据集提供 4 波段光学影像（RGBN），以及 DSM 和归一化 DSM 数据。实验中，参照以往研究 [52,53]，采用 ID 为 2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15、7_13 的 14 个样本作为测试集，剩余 23 个样本（排除标注错误的 ID 为 7_10 的样本）在两个不同阶段进行调整：网络设计与调试阶段，将 ID 为 2_11、4_11、6_9、6_11 的样本纳入验证集，其余作为训练集；待网络稳定后，将全部 23 个样本作为训练集。数据预处理阶段，考虑到 GPU 内存限制，每幅影像均被裁剪为 512×512 大小的无重叠子影像。

1、Potsdam 数据集类别与 Vaihingen 数据集一致，包含 38 幅超高分辨率 TOP 影像块，每幅尺寸为 6000×6000 像素。

2、数据预处理阶段，每幅影像均被裁剪为 512×512 大小的无重叠子影像。

3.2 实验设置

3.2.1 实验细节

翻译

所有实验在搭载 NVIDIA RTX 4090 GPU 的设备上基于 PyTorch 框架 [54] 。为加速收敛，采用 AdamW 优化器 [55] 训练模型，权重衰减设置为 0.02；学习率采用 WarmUp 策略和 MultiStepLR 策略，初始学习率为 5e-5。根据 WarmUp 策略，在固定轮次内（WHU-OPT-SAR 和 Potsdam 数据集为 5 轮，Vaihingen 数据集为 10 轮）将学习率逐步提升至 1e-4。为避免随机初始化参数对模型训练的影响，所有实验均使用固定随机种子 42；损失函数选择交叉熵损失。

训练阶段，通过随机旋转、随机翻转和随机缩放（缩放因子为 [0.5, 0.75, 1, 1.25, 1.5, 1.75]）进行数据增强。具体而言：WHU-OPT-SAR 数据集的训练轮次为 60，批大小（batch size）为 6；Vaihingen 数据集的训练轮次为 150，批大小为 24；Potsdam 数据集的训练轮次为 50，批大小为 6。测试阶段，采用重叠滑动窗口提取小预测块，得到预测结果后对重叠部分取平均值，有效修正拼接导致的边界小误差，进一步降低边界效应；同时，为保证推理时间在可接受范围内，将重叠率设置为 1/3；此外，还采用了尺度为 [0.75, 1, 1.25] 的多尺度增强和随机翻转策略。

1、所有实验在搭载NVIDIA RTX 4090 GPU的设备上基于PyTorch框架完成；采用AdamW优化器，权重衰减设置为0.02，学习率采用WarmUp策略和MultiStepLR策略，初始学习率为5e-5。

2、训练阶段，通过随机旋转、随机翻转和随机缩放进行数据增强。

3、WHU-OPT-SAR 数据集的训练轮次为 60，批大小（batch size）为 6；Vaihingen 数据集的训练轮次为 150，批大小为 24；Potsdam 数据集的训练轮次为 50，批大小为 6。

4、测试阶段，采用重叠滑动窗口提取小预测快，得到预测结果后对重叠部分取平均值，有效修正拼接导致的边界小误差，进一步降低边界效应；同时，为保证推理时间在可接受范围内，将重叠率设置为 1/3；此外，还采用了尺度为 [0.75, 1, 1.25] 的多尺度增强和随机翻转策略。

3.2.2 评价指标

翻译

为验证所提 CFFormer 框架的有效性，实验采用两类主要评价指标：第一类用于评估模型精度，包括总体精度（OA）、平均交并比（mIoU）、Kappa 系数和 F1 分数 [22,61]；第二类用于评估模型规模，包括通过浮点运算次数（FLOPs）和模型参数数量（Params）衡量的复杂度，以及通过每秒帧数（FPS）衡量的推理速度。

1、评价指标分为两类

第一类用于评估模型精度总体精度OA、平均交并比mIoU、Kappa系数和F1分数
第二类用于评估模型规模通过浮点运算次数FLOPs、模型参数数量Params、通过每秒帧数FPS

3.2.3 对比模型

翻译

为全面验证所提模型在 WHU-OPT-SAR、Vaihingen 和 Potsdam 数据集上的优越性，将 CFFormer 与其他 11 种 SOTA 方法进行对比，各方法简介如下：

BEDSN：由 Li 等人 [64] 提出，新型边界增强双流网络（BEDSN），引入带复合损失函数的边缘检测分支流（EDBS），以补偿语义分割分支流（SSBS）的边界损失；EDBS 和 SSBS 通过高度耦合的编码器和特征提取器整合；设计基于通道注意力机制的轻量级多层次信息融合模块，有效复用中间边界信息；采用多尺度特征提取模块和混合属性卷积模块增强 SSBS，以聚合多尺度上下文信息。

CFFormer：本文为多源遥感影像语义分割设计的框架，通过 FCM 和 FFM 处理提取的光学模态特征与互补模态特征。构建了三个版本的网络 ——CFFormer-Tiny、CFFormer-Small 和 CFFormer-Base，分别采用 BiFormer-Tiny、BiFormer-Small 和 BiFormer-Base [35] 作为骨干网络。

DeepLabv3+：由 Chen 等人 [56] 提出，通过简单高效的解码器模块优化 DeepLabv3 网络 [62] 的分割结果；此外，在空洞空间金字塔池化（ASPP）模块中采用深度可分离卷积，有效提升模型分割效率。

SVL 3：由 Gerke [48] 提出，基于阶梯视觉库（SVL）特征，同时融合归一化植被指数（NDVI）、饱和度数据和 DSM 数据的特征；分类器采用基于 AdaBoost 的方法，并引入条件随机场（CRF）算法对结果进行后处理。

UFMG 4：由 Nogueira 等人 [63] 提出，基于级联 CNN 网络，采用空洞卷积替代常规卷积。

CASIA2：由 Liu 等人 [5] 提出，基于 U-Net 网络，引入自级联 CNN 模块融合多尺度特征；编码器采用 VGGNet 和 ResNet，训练与推理仅使用红外 – 红 – 绿（IRRG）数据。

SA-Gate：由 Chen 等人 [57] 提出，设计分离聚合门模块，在融合前对两种模态特征进行筛选和校准，在 RGB-D 语义分割任务中表现优异。

V FuseNet：由 Audebert 等人 [24] 提出，利用多尺度特征计算损失，并对多模态特征的早期融合和晚期融合进行实验分析。

CFNet：由 Kang 等人 [28] 提出，基于多源遥感影像分类网络，可灵活调整融合位置；此外，引入轻量级多尺度特征提取模块，以充分利用不同模态的特征。

MCANet：由 Li 等人 [10] 提出，基于光学与 SAR 影像融合的语义分割框架，采用并行双编码器结构分别提取光学和 SAR 特征，并通过交叉注意力模块有效融合两种模态；值得注意的是，本文使用的 WHU-OPT-SAR 数据集由该方法的作者开源。

CMGFNet：由 Hosseinpour 等人 [58] 提出，采用两个独立编码器从高分辨率遥感影像和 DSM 影像中提取多层次特征；通过门控融合模块结合两种模态的特征，并采用自上而下的策略将高层特征与低层特征融合。

CMX：由 Zhang 等人 [59] 提出，通用跨模态融合架构，采用双流结构分别从 RGB 模态和其他模态中独立提取特征，在多个多模态数据集上取得优异结果。

AFNet：由 Yang 等人 [60] 提出，采用多路径编码器结构，可同时提取光学和 DSM 特征；此外，引入多路径注意力融合模块融合不同模态特征，以及精修注意力融合模块结合浅层和深层特征，在发表时在 Vaihingen 和 Potsdam 数据集上取得 SOTA 结果。

1、对比模型有：BEDSN、CFFormer（本文）、DeepLabv3+、SVL 3、UFMG 4、CASIA2、SA-Gate、

V FuseNet、CFNet、MCANet、CMGFNet、CMX、AFNet

3.3 实验结果

3.3.1 WHU-OPT-SAR数据集上的结果

翻译

WHU-OPT-SAR 是大规模多源遥感影像土地利用分类数据集，覆盖面积约 50000 km²。本研究在官方 WHU-OPT-SAR 测试集上，将所提模型的三个版本与其他多种先进多模态语义分割网络进行对比；此外，对 DeepLabv3 + 网络进行两组实验：一组以光学影像为输入（记为 DeepLabv3+(OPT)），另一组以光学与 SAR 影像拼接为输入（记为 DeepLabv3+(OPT-SAR)）。

如表 1 所示，DeepLabv3+(OPT) 和 DeepLabv3+(OPT-SAR) 的结果表明，简单融合不仅无法有效利用多模态信息，甚至可能在一定程度上降低模型性能。此外，所提模型的三个版本在所有指标上均表现出显著优势。以采用 BiFormer-Base [39] 作为骨干网络的 CFFormer-Base 为例，其 mIoU 和 OA 相较于此前表现最佳的 AFNet 网络分别提升 4.71% 和 1.74%，且在各类别的 F1 分数上均保持优势；与专为处理光学和 SAR 影像设计的 CFNet 和 MCANet 网络相比，CFFormer-Base 的 mIoU 分别显著提升 6.75% 和 6.48%，充分证明了所提方法的有效性。

此外，在处理道路等细长类别和 “其他” 等小目标的挑战性分割任务时，所提模型表现突出：CFFormer-Base 网络在道路类别的 F1 分数为 62.7%，“其他” 类别的 F1 分数为 41.6%，分别比其他方法平均高出 10.1% 和 13.7%，有效提升了遥感影像分割效果。同时，WHU-OPT-SAR 测试集四个不同区域的可视化结果（图 5）也验证了所提方法的有效性：在实验的第一和第二个区域，CFFormer 通过基于 Transformer 的骨干网络建立远距离像素间的长距离依赖关系，利用全局上下文信息显著提升了复杂场景下道路（j1）和水体（j2）分割的连续性；在实验的最后两个区域，其他先进方法存在大范围类别混淆，而所提方法通过 FCM 消除跨模态数据的噪声与差异，并通过 FFM 进一步提取互补特征，有效缓解了这一问题。更多结果如图 6 所示。

（注：表 1 为 WHU-OPT-SAR 数据集上的定量对比结果，包含各方法在农田、城市、村庄、水体、森林、道路、“其他” 类别的 F1 分数，以及 OA 和 mIoU；图 5、图 6 为 WHU-OPT-SAR 数据集分割结果可视化，包含光学影像、SAR 影像、真值、各对比模型结果及所提模型结果。）

表1.WHU-OPT-SAR数据集上的定量对比结果

图 5. WHU-OPT-SAR 数据集分割结果可视化。（a）光学图像；（b）合成孔径雷达（SAR）图像；（c）真值图；（d）V FuseNet 模型（结果）；（e）CFNet 模型（结果）；（f）MCANet 模型（结果）；（g）CMGFNet 模型（结果）；（h）CMX 模型（结果）；（i）AFNet 模型（结果）；（j）Proposed-Tiny 模型（结果）。

图 6. WHU-OPT-SAR 数据集分割结果可视化。（a）光学图像；（b）合成孔径雷达（SAR）图像；（c）真值图；（d）V FuseNet 模型（结果）；（e）CFNet 模型（结果）；（f）MCANet 模型（结果）；（g）CMGFNet 模型（结果）；（h）CMX 模型（结果）；（i）AFNet 模型（结果）；（j）所提模型（结果）。

3.3.2 Vaihingen数据集上的结果

翻译

Vaihingen 数据集广泛应用于遥感影像分割任务，目前已有多种专为该数据集设计的模型实现了高精度分割。为全面对比所提方法与其他方法，选择在 Vaihingen 和 Potsdam 数据集排行榜上表现优异的三种模型（SVL 3、UFMG 4、CASIA2）—— 这些均为仅使用光学遥感影像的单模态分割网络；此外，还选择七种先进多模态遥感影像分割网络，在多模态场景下对比分割结果。

实验结果如表 2 所示，所提网络在分割精度上显著优于其他方法：CFFormer-Tiny、CFFormer-Small 和 CFFormer-Base 的 mIoU/OA 分别为 84.06%/91.72%、84.31%/91.88% 和 81.72%/90.74%。具体而言，CFFormer-Small 的 OA 相较于单模态网络中表现最佳的 CASIA2 提升 0.78%，相较于多模态网络中表现最佳的 CMX 提升 1.08%。

此外可观察到，尽管大多数多模态分割网络的精度高于单模态分割网络，但也存在相反情况 —— 这是因为不同模态特征间可能存在严重噪声和差异，若处理不当，会导致不同模态间的相互干扰，从而降低分割精度。CFFormer-Base 的 mIoU 低于 CFFormer-Tiny 和 CFFormer-Small，原因在于：与 WHU-OPT-SAR 和 Potsdam 数据集相比，Vaihingen 数据集包含的影像数量更少；对于样本量较少的数据集，模型结构越深，越容易在测试集上发生过拟合。通过多次实验发现，CFFormer-Tiny 和 CFFormer-Small 的网络深度更适合 Vaihingen 数据集。所提方法通过 FCM 降低光学影像与 DSM 影像间的差异和噪声，并利用交叉注意力机制捕捉二者的互补特征，从而取得优异结果。

图 7 中的分割结果可视化对比表明，CFFormer 的分割图细节最丰富，且最接近真值；相比之下，实验中的其他先进网络在不透水面、低矮植被、建筑物和树木之间存在不同程度的相互误分类，且分割结果特征更粗糙（如 g3、d5、d6 区域）。所提网络充分提取并利用基于 Transformer 的编码器提供的全局信息、解码器提供的多尺度信息，结合 DSM 的辅助信息，实现了最佳分割效果。更多结果如图 8 所示。

（注：表 2 为 Vaihingen 数据集上的定量对比结果，包含各方法在不透水面、建筑物、低矮植被、树木、车辆类别的 F1 分数，以及 mIoU 和 OA；图 7、图 8 为 Vaihingen 数据集分割结果可视化，包含光学影像、DSM 影像、真值、各对比模型结果及所提模型结果。）

表2.Vaihingen数据集上的定量对比结果

图 7. 魏因海姆（Vaihingen）数据集分割结果可视化。（a）光学图像；（b）数字表面模型（DSM）图像；（c）真值图；（d）V FuseNet 模型（结果）；（e）CFNet 模型（结果）；（f）MCANet 模型（结果）；（g）CMGFNet 模型（结果）；（h）CMX 模型（结果）；（i）AFNet 模型（结果）；（j）Proposed-Small 模型（结果）。

图 8. 魏因海姆（Vaihingen）数据集分割结果可视化。（a）光学图像；（b）数字表面模型（DSM）图像；（c）真值图；（d）V FuseNet 模型（结果）；（e）CFNet 模型（结果）；（f）MCANet 模型（结果）；（g）CMGFNet 模型（结果）；（h）CMX 模型（结果）；（i）AFNet 模型（结果）；（j）所提模型（结果）。

3.3.3 Potsdam数据集上的结果

翻译

为全面评估，在 Potsdam 数据集上进一步开展实验，结果如表 3 所示：所提模型的三个版本在所有指标上均排名第一。CFFormer-Tiny 的 OA 相较于单模态分割网络 SVL 3 和 UFMG 4 分别提升 15.19% 和 4.49%；与专为该数据集设计的 V FuseNet、CMGFNet 和 AFNet 相比，CFFormer-Base 的 mIoU 分别提升 5.49%、2.99% 和 3.52%，OA 分别提升 3.52%、1.8% 和 1.86%。

对于车辆等密集小目标类别，所提方法的 F1 分数达到 97%，比其他方法平均提升 5.07%，充分证明所提方法不仅整体性能优异，在处理小目标时也具有显著优势。此外，图 9 展示了 CFFormer-Base 与其他先进网络的分割结果，进一步证明所提网络的优越性能：与在 Vaihingen 数据集上的表现一致，CFFormer 在各类挑战性场景中均能准确分割不同地物，包括被树木和建筑物遮挡的地物（第一、二、四组实验）以及光谱特征相似的地物（第三组实验）。这些结果表明，与其他多模态分割网络相比，所提方法中的 FCM 和 FFM 能够充分利用光学特征与高程特征的互补信息进行协同场景理解，从而获得最精准的分割结果。更多结果如图 10 所示。

（注：表 3 为 Potsdam 数据集上的定量对比结果，包含各方法在不透水面、建筑物、低矮植被、树木、车辆类别的 F1 分数，以及 mIoU 和 OA；图 9、图 10 为 Potsdam 数据集分割结果可视化，包含光学影像、DSM 影像、真值、各对比模型结果及所提模型结果。）

表3.Potsdam数据集上的定量对比结果

图 9. 波茨坦（Potsdam）数据集分割结果可视化。（a）光学图像；（b）数字表面模型（DSM）图像；（c）真值图；（d）V FuseNet 模型（结果）；（e）CFNet 模型（结果）；（f）MCANet 模型（结果）；（g）CMGFNet 模型（结果）；（h）CMX 模型（结果）；（i）AFNet 模型（结果）；（j）所提基础模型（Proposed-Base）。

图 10. 波茨坦（Potsdam）数据集分割结果可视化。（a）光学图像；（b）数字表面模型（DSM）图像；（c）真值图；（d）V FuseNet 模型（结果）；（e）CFNet 模型（结果）；（f）MCANet 模型（结果）；（g）CMGFNet 模型（结果）；（h）CMX 模型（结果）；（i）AFNet 模型（结果）；（j）所提模型（结果）。

3.3.4 数据集整体分析

翻译

三个数据集的类型存在差异：WHU-OPT-SAR 数据集（表 1）包含 SAR 和光学影像，而 Vaihingen 和 Potsdam 数据集（表 2、表 3）包含光学和 DSM 影像。所提方法三个版本的差异在于网络深度：CFFormer-Tiny 的网络层数最浅。从三个数据集的实验结果可观察到，与其他类别相比，建筑物或城市等形状更规则的类别在模型层数较浅时往往能获得更优的分割效果 —— 这表明网络较浅层更关注局部纹理信息 [65,66]，因此对于 CFFormer-Tiny 而言，对建筑物或城市等具有规则块状形状的大型土地覆盖类别的分割通常更有效。

在 Potsdam 数据集（使用光学和 DSM 数据）中，光学遥感影像中颜色和纹理信息相似的树木与低矮植被难以区分，而 DSM 提供的高程信息可弥补光学遥感影像的这一缺陷。随着模型深度增加，模型能捕捉到更多两种模态的信息，因此 CFFormer-Small 对树木和低矮植被类别的分割精度优于 CFFormer-Tiny。然而，结构过深的模型可能会稀释 DSM 提供的高程信息 [67,68]，导致特征融合时出现混淆 —— 这正是 CFFormer-Base 对树木和低矮植被类别的分割结果不如 CFFormer-Small 的原因。

3.4 消融试验

翻译

为评估所提方法中各模块的有效性，开展了一系列消融实验，所有实验均在 WHU-OPT-SAR 数据集上进行训练和测试；除非另有说明，消融实验均采用 BiFormer-Tiny 作为骨干网络。

3.4.1 FCM与FFM的有效性

翻译

如图 2 所示，将 FCM 和 FFM 嵌入编解码器结构，以校正和融合两种不同模态的特征。为评估这两个模块对 CFFormer 框架分割精度的影响，在测试集上开展消融实验：“✓” 表示包含对应模块；若移除 FCM，则不对两个分支提取的特征进行校正；若不使用 FFM，则将提取的多模态特征直接求和后输入解码器。具体结果如表 4 所示。

与基准模型相比，加入 FCM 后 mIoU 和 OA 分别提升 1.02% 和 0.31%，加入 FFM 后 mIoU 提升 0.75%；当同时使用 FCM 和 FFM 时，效果达到最优 ——mIoU 和 OA 分别提升 2.25% 和 0.82%，实现 “1+1>2” 的效果。这是因为不同模态特征间存在显著差异和噪声，只有先通过特征校正降低相互干扰，才能实现更优的交互与融合，从而获得更优的分割结果。

（注：表 4 为 WHU-OPT-SAR 数据集上 FCM/FFM 的消融实验结果，包含 FCM 和 FFM 的有无对 mIoU 和 OA 的影响。）

表 4. WHU-OPT-SAR 数据集上 FCM/FFM 的消融实验。

3.4.2 先空间校正与先通道校正的对比

翻译

为进一步探究 FCM 对 CFFormer 的影响，针对空间维度特征校正和通道维度特征校正的顺序开展消融实验：“Channel -> Spatial” 表示先进行通道维度校正，再进行空间维度校正；“Spatial -> Channel” 表示顺序相反。如表 5 所示，先进行空间维度特征校正比先进行通道维度特征校正的 mIoU 提升 0.24%。这是因为不同模态间直观的局部外观差异比抽象的全局语义差异更显著，因此先通过空间维度校正消除较大的局部空间差异，再通过通道维度校正消除相对较小的全局语义差异，可获得最佳实验结果。

（注：表 5 为 WHU-OPT-SAR 数据集上 FCM 变体的消融实验结果，包含不同校正顺序对 mIoU 和 OA 的影响。）

表 5. WHU-OPT-SAR 数据集上 FCM 变体的消融实验。

3.4.3 FFM 变体的消融实验

表 6. WHU-OPT-SAR 数据集上 FFM 变体的消融实验。

3.4.4 不同类型编码器的有效性

翻译

目前，遥感分割网络通常采用 CNN 作为编码器，因为 CNN 可通过卷积操作有效捕捉输入影像的局部相关性。然而，由于卷积算子的局部性，CNN 在建模影像全局关系方面存在显著局限。相比之下，Transformer 通过自注意力机制擅长捕捉遥感影像的全局信息，同时建立信息密集型多模态数据的长距离依赖关系。

为验证编码器类型的影响，在 WHU-OPT-SAR 数据集上，将基于 BiFormer-Tiny、BiFormer-Small、BiFormer-Base 的网络以及混合网络 SMT-Tiny [69] 作为所提框架的编码器进行实验。表 7 的实验结果表明，Transformer 模型在 mIoU 和 OA 上取得最佳精度，分别达到 58.0% 和 85.3%；与 CNN 模型相比，mIoU 和 OA 分别提升 3.2% 和 1.3%，有效证明了全局信息和长距离依赖建模对多模态遥感影像分割任务的重要性。

同时，CNN 模型在模型复杂度和推理速度上具有优势：尤其是 CNN 的推理速度分别是三种 Transformer 模型和混合 CNN-Transformer 模型的 4.4 倍、4.3 倍、2.8 倍和 2.5 倍。CNN-Transformer 在几乎所有指标上均处于中等水平，精度略高于 CNN 模型，但在速度和复杂度上与 CNN 模型存在显著差距。因此，考虑到多模态遥感影像的特点，最终选择 Transformer 模型作为所提方法的编码器；但同时认为 CNN 模型仍具有巨大潜力，尤其在实时分割任务中。

（注：表 7 为 WHU-OPT-SAR 数据集上不同类型编码器的实验结果，包含骨干网络、编码器类型、参数数量、FLOPs、速度、mIoU 和 OA；复杂度和速度基于 NVIDIA RTX 4090 GPU 上 512×512 大小的 OPT 和 SAR 数据输入测量。）

表 7. WHU-OPT-SAR 数据集上不同类型编码器的结果。复杂度与速度的测试条件为：输入 512×512 尺寸的光学（OPT）与合成孔径雷达（SAR）数据，运行环境为 NVIDIA RTX 4090 显卡。

3.4.5 解码器层数的有效性

翻译

编解码器架构因其优异的性能和高效的灵活性，已广泛应用于语义分割任务。本研究充分利用该架构的特点：将骨干网络每个阶段的下采样特征作为对应 FCM 的输入；获得不同尺度的融合特征后，采用多个卷积层和上采样操作将这些特征的空间分辨率恢复至相同维度。

实验中观察到，单一层或少数几层的特征可能缺乏足够的上下文信息，导致模型在理解整体影像上下文时丢失关键细节；然而，架构过深不仅会增加计算开销，还可能在训练阶段导致过拟合。实验结果表明，四层结构是最可靠且实用的：如表 8 所示，综合利用 4 个尺度的特征取得最佳结果，mIoU 达到 57.51%，比仅使用单一层特征提升 8.17%；此外，“其他” 类别和道路类别的 F1 分数分别显著提升 240%（从 17.1% 提升至 41.2%）和 130%（从 47.6% 提升至 61.6%）。在四层之前，每增加一个特征层，网络精度均会提升，这进一步证明了多尺度特征在遥感影像分割任务中的重要性。

（注：表 8 为 WHU-OPT-SAR 数据集上解码器层数的消融实验结果，包含不同层数对各类别 F1 分数、mIoU 及 mIoU 提升幅度（∆）的影响。）

表 8. WHU-OPT-SAR 数据集上解码器层数的消融实验。

3.4.6 FCM模块中标准差池化的有效性

翻译

如图 3 所示，在 FCM 模块的通道维度校正机制中，整合了全局平均池化、全局最大池化和全局标准差池化。为评估标准差池化对 CFFormer 架构分割精度的影响，在测试数据集上开展消融实验：“✓” 表示包含该模块；启用全局标准差池化时，其与全局平均池化和全局最大池化协同工作。表 10 的详细结果表明，与仅使用全局平均池化和全局最大池化相比，引入全局标准差池化使 mIoU 提升 0.82%，OA 提升 0.39%。全局标准差池化使模型能够关注特征变化和分布信息，让模型聚焦于更有意义的特征，并适应不同类型和数据分布，从而得到更精细的分割结果。

（注：表 10 为 WHU-OPT-SAR 数据集上 FCM 模块标准差池化的消融实验结果，包含是否使用标准差池化对 mIoU 和 OA 的影响。）

表 10. WHU-OPT-SAR 数据集上 FCM 模块标准差池化的消融实验。

3.5 效率分析

翻译

模型精度和模型复杂度是评估网络整体性能的关键因素。因此，在 WHU-OPT-SAR 数据集上，采用 mIoU、OA、mF1 分数、Kappa 系数、参数数量和 FLOPs 六个指标，从模型精度和复杂度两方面对比所提方法。实验中，采用两个 BiFormer-Tiny 骨干网络提取光学和 SAR 特征，其他所有模型方法也均采用双分支进行特征提取；训练和测试均在 WHU-OPT-SAR 数据集上进行，具体结果如表 9 所示。

可观察到，CFFormer-Tiny 的计算开销低于许多模型，仅高于 CFNet（表 9）；同时，CFFormer-Tiny 在所有精度指标上均有提升：mIoU 提升 6.26%，OA 提升 2.35%，mF1 分数提升 6.3%，Kappa 系数提升 3.6%。CFFormer-Tiny 在保持较少参数和较低计算量的同时实现了更高精度；而 CFFormer-Small 和 CFFormer-Base 在参数数量与其他模型相近的情况下实现了更高精度。实验结果表明，参数增加并不总能与精度提升正相关；此外，在影像分割性能方面，优良的架构和特征融合策略比单纯增加参数更为重要。

（注：表 9 为 WHU-OPT-SAR 数据集上的效率结果，包含各方法的参数数量、FLOPs、mIoU、OA、mF1 分数和 Kappa 系数；复杂度基于 NVIDIA RTX 4090 GPU 上 512×512 大小的 OPT 和 SAR 数据输入测量。）

表 9. WHU-OPT-SAR 数据集上的效率结果。复杂度的测试条件为：输入 512×512 尺寸的光学（OPT）与合成孔径雷达（SAR）数据，运行环境为 NVIDIA RTX 4090 显卡。

4 定性分析与讨论

4.1 单模态与多模态结果对比

翻译

CFFormer 的核心优势在于能够充分提取并利用不同模态间的互补信息，以获得更精准的分割结果。为证明这一点，图 11 展示了仅使用光学影像的 BiFormer-Tiny 网络，以及联合使用光学影像与 SAR/DSM 影像的 CFFormer-Tiny 网络的分割结果。

在 WHU-OPT-SAR 数据集上（图 11（a）），由于难以区分城市与村庄、水体与森林等光谱相似类别，BiFormer-Tiny 网络将城市误分为村庄，且几乎无法识别森林附近的水体。然而，在 SAR 影像中：水体表面相对平滑，后向散射系数低，表现为较暗特征；城市区域存在建筑物等人造结构，表面相对粗糙，可产生强后向散射，表现为较亮特征。所提 CFFormer-Tiny 充分利用这些特性，为光学影像提供了良好的互补信息，实现了对上述易混淆类别的精准分割。

在 Vaihingen 和 Potsdam 数据集上（图 11（b）），树木和低矮植被在光学影像中外观和轮廓高度相似，导致仅依赖光学影像的 BiFormer-Tiny 网络将低矮植被误分为树木；所提方法借助 DSM 提供的高程差异信息，成功解决了这一难题。此外，CFFormer-Tiny 在边缘细节分割上也比 BiFormer-Tiny 更精准。

综上，实验结果充分证明了 CFFormer 在多模态遥感语义分割任务中的强大性能；与单模态网络相比，CFFormer 还表现出更强的鲁棒性和更优的泛化性能。本研究采用多模态结构设计整合不同模态信息的网络，为评估该架构设计的有效性，在测试数据集上开展消融实验：包括仅使用光学影像的单模态网络，以及同时使用光学和 SAR 影像的多模态网络。表 11 的详细结果表明，多模态结构的分割结果比仅使用光学影像的结果提升 2.83%，这有力验证了多模态结构的有效性 —— 多源影像的整合通过交互促进高效信息交换，实现更优融合与互补，最终提升分割精度。

（注：表 11 为 WHU-OPT-SAR 数据集上不同模态的消融实验结果，包含单模态（仅 OPT）和多模态（OPT+SAR）对 mIoU 和 OA 的影响；图 11 为仅 OPT 和 OPT-SAR/DSM 方法的语义分割结果可视化，仅 OPT 分割采用 BiFormer-Tiny，OPT-SAR/DSM 分割采用基于相同 BiFormer-Tiny 骨干的所提方法；（a）为 WHU-OPT-SAR 数据集上的可视化对比，（b）为 Vaihingen（上）和 Potsdam（下）数据集上的可视化对比。）

表 11. WHU-OPT-SAR 数据集上不同模态的消融实验。

图 11. 仅光学（OPT-only）方法与光学 – 合成孔径雷达 / 数字表面模型（OPT-SAR/DSM）方法的语义分割结果可视化。仅光学分割采用 Biformer-Tiny 模型，而光学 – 合成孔径雷达 / 数字表面模型分割采用所提方法（与 Biformer-Tiny 共享相同的主干网络）。（a）WHU-OPT-SAR 数据集上的可视化对比；（b）魏因海姆（Vaihingen）数据集（上）与波茨坦（Potsdam）数据集（下）上的可视化对比。

4.2 特征校正效果分析

翻译

为更好地理解 FCM 的工作原理，图 12 可视化了第 1 层提取的校正前特征、经过 FCM 后的校正后特征，以及二者的差异图。显然，经过跨模态特征校正后，不同模态的特征图得到相应校正与增强，同时模态间的差异显著改善：光学模态将光谱和纹理信息传递给 SAR 和 DSM 模态，而 SAR 和 DSM 模态则更精准地定位光学模态的边界。

在第二行（SAR 模态）中，校正前的 SAR 模态在农田区域呈现不规则块状特征，而校正后农田轮廓变得清晰，呈现规则分布的长条状；DSM 模态的情况更为明显 —— 校正前的特征中车辆与地面几乎无法区分，而注入光学影像的互补信息后，车辆轮廓和地面位置清晰可见。此外，通过观察光学特征的差异图可发现，校正后的光学特征边界信息进一步增强，同时部分冗余噪声被滤除。综上，所提 FCM 能够有效利用多模态数据间的互补信息，消除模态间的差异与噪声，从而实现更精准的语义理解。

（注：图 12 为第 1 层提取特征、校正后特征及二者差异图的可视化；包含 OPT、SAR、OPT、DSM 四种模态的校正前（Before Corr）、校正后（After Corr）特征及差异图（Difference）。）

图 12. 第 1 层提取的特征、其校正后的对应特征以及两者之间的差异图的可视化。

5 结论

翻译

本文提出一种通用的交叉融合 Transformer 框架（CFFormer），用于联合光学遥感影像与 SAR、DSM 等其他遥感数据的语义分割。针对多模态遥感影像间的差异与干扰噪声，设计 FCM 从空间和通道两个维度校正不同模态的特征，使不同模态更关注彼此的互补信息；为充分挖掘多模态数据间的互补性，提出 FFM，采用多头交叉注意力机制实现两种模态同尺度特征的交互与融合。

在 WHU-OPT-SAR、Vaihingen 和 Potsdam 数据集上开展的大量基准实验和消融实验表明，所提方法在多源遥感应用中具有有效性和鲁棒性；同时，可视化结果表明，CFFormer 能够利用 SAR 和 DSM 数据提供的互补信息，有效识别光学影像中的光谱相似地物，从而获得更精准的分割结果。

然而，本文提出的通用模块旨在利用不同模态信息的互补性，未考虑成像机制的差异。未来，将结合不同影像的物理机制设计模型，以提升其可解释性。

1、本文提出一种通用的交叉融合 Transformer 框架（CFFormer），用于联合光学遥感影像与 SAR、DSM 等其他遥感数据的语义分割。针对多模态遥感影像间的差异与干扰噪声，设计 FCM 从空间和通道两个维度校正不同模态的特征，使不同模态更关注彼此的互补信息；为充分挖掘多模态数据间的互补性，提出 FFM，采用多头交叉注意力机制实现两种模态同尺度特征的交互与融合。

2、在 WHU-OPT-SAR、Vaihingen 和 Potsdam 数据集上开展的大量基准实验和消融实验表明，所提方法在多源遥感应用中具有有效性和鲁棒性；同时，可视化结果表明，CFFormer 能够利用 SAR 和 DSM 数据提供的互补信息，有效识别光学影像中的光谱相似地物，从而获得更精准的分割结果。