Interactive Concept Network Enhanced Transformer for Remote Sensing Image Captioning | IEEE Journals & Magazine | IEEE Xplore

期刊：IEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS)

发布日期：2024.12.27

简介

本文ICNET聚焦于遥感图像captioning（图像描述生成）任务，最终的目标是生成自然语言文本描述，核心是“图像–>语言”的跨模态转换。

0 摘要

翻译

遥感图像 captioning（图像描述生成）在推动遥感图像理解与自然语言生成结合方面发挥着重要作用。然而，由于遥感图像覆盖范围广、信息量大，难以对关键目标及其关系生成准确的语义描述。针对这些问题，本文提出一种新颖的交互式概念网络增强型 Transformer（ICNET）用于遥感图像 captioning。首先，在局部与全局特征提取模块中提取多级视觉特征；为充分捕捉局部特征中的关键目标，构建概念映射网络（CMN），将多尺度局部特征映射到目标的高层语义概念，使视觉特征映射中的相关特征向量整合为多个相对独立的词特征，从而弥合视觉特征与语义概念之间的鸿沟；随后，引入全局特征增强（GFE）模块，提升全局关系的区分度并过滤无关内容；最后，为融合语义概念与全局特征，设计配备概念交互模块（CIM）的 Transformer，促进特征对齐，生成目标类别与关系表述准确的图像描述。在三个遥感图像 captioning 数据集上的实验结果表明，所提方法具有优越性。

1、遥感图像描述借助Transformer技术在遥感图像理解方面发挥重要作用。

2、（动机）由于遥感图像覆盖范围广、包含信息量大，因此难以准确生成关键目标及其相互关系的语义描述。

3、本文提出了ICNET新型网络，一种交互式概念网络增强Transformer，其中三大关键模块：

概念映射网络（CMN）：将图像局部特征映射到高层语义概念，把视觉特征转化为多个独立的词特征，解决“视觉-语义”的理解鸿沟，重点捕捉关键目标。

全局特征增强（GFE）模块：强化图像全局关系的区分度，同时过滤无关信息，避免冗余内容干扰描述生成。

概念交互模块（CIM）：集成到 Transformer 中，实现语义概念与全局特征的融合对齐，确保生成的描述能准确体现目标类别和相互关系。

1 引言

翻译

随着深度神经网络的发展，遥感图像处理在目标检测 [1]-[3]、变化检测 [4]-[6]、图像分割 [7]-[9] 等计算机视觉任务中取得了显著进展。然而，这些任务通常仅生成单个或多个离散标签来描述主要目标，对于遥感图像中复杂的目标集合与场景所包含的信息，其描述能力十分有限。为解决这一局限，研究者将目光转向自然语言处理领域 [10]-[11]。遥感图像 captioning 作为融合计算机视觉 [12] 与自然语言处理 [13] 的跨模态任务，旨在通过自然语言描述遥感图像的视觉内容 [14]。它结合文本生成与视觉理解，突破离散标签的限制，为遥感场景解读提供支持，能够更全面地反映多个目标的拓扑结构、分布情况及其属性信息 [15]。在自然灾害评估、土地覆盖监测等众多应用领域，遥感图像 captioning 都能提供直观的指导。

与自然图像 captioning 相比，遥感图像描述生成难度更大。生成的描述不仅需要捕捉不同尺度 [16] 和类别的地物特征 [17]，还需体现地物间的关联属性与模态信息 [18]。遥感图像 captioning 的主要挑战可归纳为两方面：其一，遥感图像具有独特特征，难以对重要目标及其相互关系进行有效抽象与表征；其二，提取的遥感图像特征与文本特征之间缺乏交互与对齐，导致生成语句存在语义偏差 [19]。

针对第一个挑战，现有常用方法通常通过卷积神经网络（CNN）[20]-[21] 或视觉 Transformer（ViT）[22] 提取遥感图像特征。为捕捉不同尺度的目标、避免遗漏关键目标 [23]，研究人员利用 CNN 的不同卷积层提取多尺度特征 [24]。但 CNN 在建模图像全局信息方面能力不足，尤其在全局关系的提取与表征上存在局限。与 CNN 擅长捕捉局部目标的特点相比，ViT 通过自注意力机制能够捕捉图像中的全局关系，然而值得注意的是，ViT 无法有效利用局部信息，导致其对不同尺度和类别的目标捕捉能力受限。

而第二个挑战则涉及用于描述生成的视觉特征与文本语义之间的交互问题。通常情况下，视觉特征会被编码为高维特征向量，随后基于循环神经网络（RNN）[25]-[26] 和 Transformer [27]-[28] 相关技术直接生成描述文本；另一种主流方法是通过交叉注意力机制实现视觉特征与文本特征的交互 [29]-[31]。但由于模型交互能力不足，对目标间关联关系的描述效果受到限制。

因此，如何针对不同层级的图像特征，有效运用特征融合方法，并对关键目标与关系的跨模态特征交互进行建模，形成全面的视觉表征，对于遥感图像 captioning 至关重要。为缓解上述问题，本文提出一种融合多级特征聚合与跨模态特征交互的解决方案。为获取多尺度目标与全局关系的全面特征，联合使用 CNN 与 ViT 特征以提升特征表征能力；提出概念映射网络（CMN），对不同尺度的局部特征进行有效聚合，生成高层语义概念；采用全局特征增强（GFE）模块，获取更全面的全局语义信息并提升其区分度；此外，为解决跨模态特征交互问题，遵循 Transformer 的标准输入或输出形式，实现全局增强特征的交互，提高模型对全局关系的区分能力。具体而言，设计概念交互模块（CIM），通过将视觉特征映射中的相关特征向量整合为多个相对独立的词特征，实现语义概念与词向量的交互建模。

基于上述思路，本文提出一种用于遥感图像 captioning 的交互式概念网络增强型 Transformer（ICNET），其结构如图 1 所示。该框架主要由四个部分组成：局部与全局特征提取模块、CMN 模块、GFE 模块以及配备 CIM 的 Transformer。首先，利用 CNN 提取图像不同尺度的局部特征，通过 ViT 提取图像的全局特征；然后，提出 CMN，借助空间和通道维度的注意力机制对局部特征进行有效聚合；利用 GFE 模块获取更全面、丰富的特征表征；最后，提出配备 CIM 的 Transformer，通过 CIM 实现语义概念与词向量的交互，生成连贯且上下文相关的图像描述。本文工作的主要贡献如下：

提出新颖的 ICNET，用于遥感图像 captioning 任务，实现对目标及其关系的准确描述生成；
为提升关键目标描述生成效果，提出聚合不同尺度特征的 CMN 模块，并进一步引入 CIM 模块，增强语义概念与生成词语间的关联性，提高模型对描述中每个词语的区分能力；
设计 GFE 模块以增强全局语义信息，并将其注入解码网络，提升模型对关系描述的区分能力。

本文其余部分结构如下：第二部分回顾相关工作；第三部分阐述模型构建与图像描述生成过程；第四部分通过设计实验对所提方法进行评估；最后，第五部分对全文进行总结。

2 相关工作

本节将简要介绍自然图像 captioning 与遥感图像 captioning 领域的相关研究工作。

2.1 自然图像 captioning

翻译

早期的图像 captioning 方法包括蕴含描述检索 [32]-[35]、模板填充以及人工设计的自然语言生成技术 [36]-[40]。目前主流的语句生成类图像 captioning 方法通常基于深度学习生成模型构建。其中，最简单的实现方式是利用 CNN 最后一层的激活值提取高层表征，并将其作为语言模型的条件反射元素。开创性研究 “Show and tell”[41] 便采用了这种思路，将 GoogLeNet [42] 的输出结果输入到语言模型的初始隐藏状态中。同年，Karpathy 与 Fei-Fei [43] 将 AlexNet [44] 提取的全局特征作为语言模型的输入。此外，Mao 等人 [45] 和 Donahue 等人 [46] 在语言模型的每个时间步都注入从 VGG 网络 [47] 提取的全局特征。

由于全局表征存在局限性，后续多数方法通过提高视觉编码的粒度来改进模型 [48]-[50]。例如，Dai 等人 [51] 采用二维激活图替代一维全局特征向量，直接向语言模型引入空间结构信息。在机器翻译领域的研究启发下，许多图像描述研究团队引入额外的注意力机制，使图像描述架构具备时变视觉特征编码能力，从而拥有更高的灵活性与更细的粒度。自注意力机制作为一种能让集合中每个元素与其他所有元素建立关联的注意力机制，通过残差连接可计算该集合元素的细粒度表征。Vaswani 等人 [29] 首次将自注意力机制应用于机器翻译与语言理解任务，由此提出 Transformer 架构及其变体。该架构不仅在自然语言处理领域占据主导地位，随后也被广泛应用于计算机视觉领域。

在全局特征与网格特征出现之后，基于区域的特征凭借出色的性能，多年来一直是图像 captioning 任务的最优选择。然而，近年来多种因素促使研究者重新探讨何种特征模型最适用于图像 captioning 任务，例如训练更充分的网格特征性能提升 [52]、自注意力视觉编码器的出现 [53] 以及对比语言 – 图像预训练（CLIP）等大规模多模态模型的兴起 [54]。当前的研究策略包括在大规模数据上训练更优的目标检测器 [55]，或采用从头训练的端到端视觉模型 [56]。此外，类 BERT 模型通过实现图像与文本的早期融合取得成功，这一成果也证明了融合文本信息的视觉表征具有良好的适用性。

2.2 遥感图像 captioning

翻译

与自然图像 captioning 相比，遥感图像 captioning 的差异主要体现在数据来源、内容特征与语言表征三个方面。早年间，Qu 等人 [57] 提出一种多模态编码器 – 解码器架构，用于从语义层面解读高分辨率遥感图像。在该模型中，将 CNN 提取的特征与 RNN 生成的描述文本相结合，得到最终的语句，并在其提出的 UCM-captions 和 Sydney-captions 数据集上验证了该架构的有效性。

Shi 与 Zou [58] 针对不同地理尺度下遥感图像中同一地物元素存在的语义差异问题，提出了一种解决方法。他们引入全卷积网络（FCN），为从谷歌地球和高分二号卫星获取的遥感图像生成全面且鲁棒的描述文本，同时保证模型具有良好的速度性能。该方法首先完成关键目标检测、环境分析与景观分析三个子任务，随后融合各阶段结果生成最终描述。

与之不同，Zhang 等人 [59] 利用 CNN 检测遥感图像中的主要目标，并通过 RNN 为检测到的目标生成自然语言描述。Zhang 等人 [60] 提出一种视觉对齐注意力模型，该模型引入精心设计的视觉对齐损失。该损失通过明确计算参与交互的图像特征与对应词嵌入向量之间的特征相似度来确定；为解决非视觉词汇对注意力层训练的影响，他们还构建了一个视觉词汇表，在计算视觉对齐损失时将非视觉词汇从语句中剔除。

此外，为弥合遥感图像低层次特征与高层次语义之间的鸿沟，Zhang 等人 [18] 利用 FCN 生成图像特征，并通过注意力机制获取中间向量，将其作为长短期记忆（LSTM）解码器的输入，实现遥感图像描述生成。在这项研究的基础上，Li 等人 [61] 提出一种多级注意力模型，该模型包含三种注意力结构，分别用于关注图像的不同区域、不同词汇以及实现视觉与语义注意力。Zhang 等人 [18] 则采用基于 Transformer 的网络进行遥感图像 captioning；特别地，为应对训练数据有限的问题，引入辅助解码器用于多标签场景分类，该辅助解码器利用编码器与图像描述之间的概念相似性以及突出语义类别的能力，在训练过程中为编码器提供辅助。

Wang 等人 [62] 提出一种可解释的遥感图像 captioning 框架，该框架摒弃传统思路，采用由词提取器和语句生成器两个网络构成的词 – 句可解释框架。另外，Li 等人 [63] 提出一种新的截断交叉熵损失，以解决遥感图像 captioning 任务中交叉熵损失易导致的过拟合问题。针对以往方法忽视领域知识的问题，Sumbul 等人 [24] 提出一种基于细粒度结构化注意力的模型，用于充分利用高分辨率遥感图像中语义内容的结构特征。此外，Zia 等人 [25] 首先通过多尺度视觉特征编码器从遥感图像中提取详细信息，然后利用自适应多头注意力解码器，基于提取的多尺度特征优化描述生成过程。

尽管多尺度方法已取得显著进展，但这些方法通常无法充分考虑不同尺度下视觉特征与文本特征之间的交互，导致描述生成不准确。受 [19] 和 [27] 的启发，本文提出一种基于 Transformer 的新型 ICNET 框架来解决这一问题。该框架通过 CMN 获取高层概念，并借助 CIM 融合这些交互的作用；此外，在提取的全局表征中引入 GFE 模块，以增强模型的全局区分性表征能力。

3 方法原理

翻译

所提 ICNET 的架构如图 1 所示，整个模型主要由局部与全局特征提取模块、CMN 模块、GFE 模块以及配备 CIM 的 Transformer 组成。ICNET 主要通过 CMN 构建概念，并将其输入到 CIM 中与词嵌入进行交互，以提升 Transformer 对关键目标的捕捉能力。该基于 Transformer 的网络首先利用 ViT 提取图像的全局特征，然后通过交叉注意力机制对关系进行建模，最终生成描述文本。本节将详细阐述全局与局部特征提取、CMN、GFE、配备 CIM 的 Transformer 以及模型训练过程。

图1. 所提 ICNET 模型框架图。局部与全局特征提取模块分别采用预训练的 CNN（卷积神经网络）和 ViT（视觉 Transformer）图像编码器，从输入图像中提取多尺度局部特征和全局特征。CMN（概念映射网络）将多尺度局部特征映射到高层语义概念。GFE（全局特征增强）模块丰富全局特征表示。带有 CIM（概念交互模块）的 Transformer 促进特征对齐，并生成具有恰当类别和关联关系的描述文本。

ICNET的整体架构可分为四个阶段：局部-全局特征提取—>概念映射网络—>全局特征增强—>带CIM的Transformer

局部-全局特征提取模块，其核心功能即为同时获取遥感图像的“局部目标特征”与“全局关系特征”，具体细节：局部特征方面，用预训练ResNet-152（CNN）提取三个不同分辨率的特征图（28×28、14×14、7×7），聚焦大、中、小尺度目标；全局特征方面，用预训练ViT（CLIP-ViT-b/32 backbone）（视觉Transformer）提取全局语义，保证平移/旋转不变性。捕捉目标间的整体关系。

概念映射网络，其核心功能即为将“局部特征”转化为“高层语义概念”，缩小视觉-文本语义鸿沟，建立图像特征与语义概念的映射关系。其中包含空间注意力SA对特征图F2进行处理，生成位置权重（postion weights），捕捉空间维度的重要性，1×1卷积对于F3和F4特征进行通道调整，其中F4还经过像素注意力PA和多层网络处理生成语义权重（semantic weights），经过1×1卷积处理后的F3特征与位置权重进行特征融合，加强空间-语义关联性优化特征表征。位置权重与语义权重通过加权映射融合，再经过全局平均池化操作得到多组特征向量L，同时位置信息通过位置共享（PS）模块全递给后续模块。

全局特征增强针对ViT处理得到的全局特征特征图进行增强，具体而言：两个Linear线性层分别对全局特征进行变换，其中一个分支又引入了深度可分离卷积和sigmod激活函数，生成门控因子G（Gating Factor），然后两个分支处理后的特征通过门控单元进行融合，得到增强后的特征。（注意力门能够选择输出特征图中重要的部分）将增强后的特征传入到Transformer中，参与后续图文交互与文本生成。

带概念交互模块的Transformer该模块负责将图像特征与文本生成关联，具体而言：文本端经过词嵌入和位置编码得到初始表示；图像端的特征与位置信息输入到概念交互模块，实现图文概念的交互，随后就是进入编码器Encoder和解码器Decoder的多层堆叠模式，最终生成文本描述文本（如：十字路口周围有绿树和绿草坪），其中全局特征增强输出的全局特征输入到Transformer的编码器提供全局语义支撑，帮助模型理解图片的整体内容，并与文本特征进行交互助力图文语义对齐。

3.1 全局与局部特征表征

翻译

在遥感图像中，目标通常表现出显著的尺度差异。图像表征作为将遥感图像中有价值的特征与目标编码为高层特征图的过程，对于遥感图像理解至关重要。高质量的图像表征有助于提取更有效的全局和局部特征，进而提升描述生成性能 [26]。

受上述思路启发，本文分别利用 CNN 和 ViT 提取局部特征与全局特征，以获取遥感图像的全面语义表征。其中，局部特征用于捕捉遥感图像中的目标信息，全局特征则用于概括整个遥感图像中目标间的关系信息。

对于全局特征，其需具备平移和旋转不变性。为实现这一特性，从原始 RGB 图像\(X \in \mathbb{R}^{W \times H \times 3}\)中，通过预训练的 ViT 提取全局特征\(F_{1} \in \mathbb{R}^{d_{1}}\)，其中\(W \times H\)为图像尺寸，3 代表 RGB 光学通道。该过程可表示为：\(F_{1}=\text{ViT}(X) \tag{1}\)

对于局部特征，不同的局部特征需关注遥感图像的不同部分。为此，通过预训练的 ResNet152 图像编码器提取整个图像的局部表征，得到四个不同分辨率的特征图 [12]。由于语言特征比视觉特征更具区分性，两种模态特征之间存在较大的语义鸿沟，尤其是在较低层级 [53]。因此，选取三个相对较深的层级以实现更全面的特征表征，将其记为\(F_{2}, F_{3}, F_{4} \in \mathbb{R}^{d_{2}}\)，对应的尺寸分别为 28×28、14×14 和 7×7。这种选择有助于视觉特征与语言特征之间实现更有效的交互。卷积过程可表示为：\(F_{2}, F_{3}, F_{4}=\text{ResNet}(X) \tag{2}\)

通过采用这些不同层级的特征表征，能够从遥感图像中获取丰富的局部和全局语义信息。此外，视觉与文本的融合进一步丰富了两种模态的信息嵌入。

3.2 概念映射网络 CMN

翻译

CMN 的主要目的是构建语义概念，以便在 Transformer 解码器部分与词嵌入进行交互，实现跨模态特征对齐。为充分聚合不同尺度局部特征中的重要信息，所提 CMN 采用动态通道与空间注意力机制，聚焦关键语义与结构信息；随后将权重映射到邻域特征图上，以补充不同层级的特征细节；最后通过全局平均池化操作进一步优化概念特征。

具体而言，首先对 CNN 提取的多尺度局部特征\(F_{2}-F_{4}\)采用多个 1×1 大小的小卷积核进行处理，该过程可表示为（其中 Conv (・) 表示卷积操作）：（原文此处公式表述不完整，未明确写出具体表达式，故保持原样）

随后，将特征图调整为与\(F_{3}\)相同的尺寸\(M \times K\)，且通道数为 512。如图 1 所示，设浅层、中层和深层特征图分别为\(F_{2}’ – F_{4}’\)。其中，\(F_{2}’\)包含丰富的细节特征，有助于模型识别显著目标。为获取隐藏特征图的位置权重，先在通道维度上进行平均池化操作，再执行 sigmoid 操作；然后通过矩阵乘法将位置权重用于\(F_{2}’\)与\(F_{3}’\)的融合。通过这种方式，能够基于位置注意力实现两个特征图的信息融合，增强融合特征图中纹理特征的表征。该过程可定义为：\(F_{3}”=\frac{1}{C} \sum_{k=0}^{C} F_{2[i, j, k]}’ \odot F_{3}’\)其中，C 表示通道数，\(\odot\)表示矩阵乘法。

此外，深层特征图\(F_{4}’\)能够捕捉密集且大尺度的目标。像素注意力通常应用于图像的最细粒度层级，因此在深层利用像素注意力生成 N 个通道的像素权重，该权重关注每个像素的重要性，并通过学习每个像素相对于其他像素的重要性来进行特征提取，这一过程有助于解码器学习遥感图像中的目标。基于此，对\(F_{4}’\)应用 N 个软注意力模块，生成多个关键语义权重。构建 N 个空间尺寸为\(M \times K\)的注意力权重图是实现这一过程的前提，将其记为\(\gamma \in \mathbb{R}^{M \times K \times N}\)。第 n 个注意力图中位置\((i, j)\)处的权重系数计算如下：\(\gamma_{[i, j, n]}=\frac{1}{C} \sum_{k=0}^{C} F_{4[i, j, k]}’ \times w_{[n, k]}\)其中，\(\gamma_{[i, j, n]}\)为中间权重图，用于将 C 个特征通道映射到 N 个注意力通道。

为能更好地与 Transformer 解码器中的词嵌入向量对齐，并避免引入人工参数，本文提出位置共享机制，利用词嵌入向量的长度对注意力权重 N 进行对齐；随后通过 SoftMax 操作对其进行缩放，得到\(\bar{\gamma}_{[i, j, n]}\)，具体计算如下：\(\overline{\gamma}_{[i, j, n]}=\frac{\exp \left(\gamma_{[i, j, n]}\right)}{\sum_{i=0}^{M} \sum_{j=0}^{K} \exp \left(\gamma_{[i, j, n]}\right)}\)

最后，利用全局平均池化层将局部特征图聚合为多个概念特征向量。L 中第 n 个向量的第 k 个元素计算如下：\(L_{[n, k]}=\frac{1}{H \times W} \sum_{i=0}^{H} \sum_{j=0}^{W} F_{3[i, j, k]}” \otimes \overline{\gamma}_{[i, j, n]}\)其中，\(\otimes\)表示哈达玛积。

3.3 全局特征增强 GFE

翻译

为提升全局语义信息的区分能力，进而获得更全面、丰富的特征表征，本文首先对全局特征\(F_{1}\)中无关或弱相关的内容进行过滤。具体而言，采用 3×3 深度可分离卷积块将其转换为基于近邻特征的门控通道注意力机制，使其结构与门控通道注意力的设计理念保持一致，该过程可表示为（原文此处公式表述不完整，未明确写出具体表达式，故保持原样）：

随后，引入基于 sigmoid 激活函数的注意力门\(G \in \mathbb{R}^{N \times d}\)，其计算如下：\(G=\sigma\left(\hat{F}_{1} W_{g}+b_{g}\right)\)其中，\(W_{g} \in \mathbb{R}^{d \times d}\)为可学习参数矩阵，\(b_{g} \in \mathbb{R}^{d}\)为偏置项，\(\sigma(\cdot)\)为 sigmoid 激活函数。注意力门 G 能够选择性地突出\(F_{1}\)中的重要信息，为图像提供更具区分性的表征。基于该门控，优化后的特征\(\tilde{F}_{1} \in \mathbb{R}^{d_{1}}\)可通过（原文此处公式表述不完整，未明确写出具体表达式，故保持原样）计算得到，其中\(\otimes\)表示哈达玛积。之后，将优化后的特征\(\tilde{F}_{1}\)输入到 Transformer 中。

3.4 配备CIM的Transformer

翻译

为充分利用语义概念与全局特征，本文设计的 Transformer 由编码器、解码器和 CIM 组成，如图 2 所示。增强后的全局特征\(\tilde{F}_{1}\)以标准方式输入到 Transformer 中，提升模型对全局关系的建模能力；对于语义概念，通过所提 CIM 增强其与词嵌入向量的关联性，CIM 直接连接在解码器的头部，最终两者共同用于词汇预测

图 2. 带有概念交互模块（CIM）的 Transformer 架构。在原始 Transformer [29] 的基础上，解码器的前端增设了一个概念交互模块。

3.4.1 概念交互模块 CIM

翻译

给定生成的语句 S，通过 word2vec [64] 词嵌入方法获取包含位置编码的特征向量 E，其表示如下（原文此处公式表述不完整，未明确写出具体表达式，故保持原样）：

语言生成过程需要在语义概念的引导下进行，因此基于注意力机制，引入前缀因果语言建模（PCLM）。该建模方法借鉴 UniLM [65] 中前缀的使用思路，通过适配给定的图像前缀来生成文本，得到的总注意力权重如下：\(\hat{X}=\text{SoftMax}\left(\frac{\left(E W_{q}\right)\left(L W_{k}\right)^{T}}{\sqrt{d}}\right) \times\left(L W_{v}\right)\)其中，E 为词向量，L 为概念向量，\(W_{q}\)、\(W_{k}\)和\(W_{v}\)为可学习参数矩阵，d 为缩放因子。

CIM 采用点积运算计算向量 E 与 L 之间的相似度分布，并通过带有相似度度量的向量 L 进一步计算加权和\(\hat{X}\)。如图 3 所示，每个文本标记嵌入都能处理所有概念及其之前的文本标记嵌入。PCLM 与传统因果语言建模 [66] 类似，模型在生成文本时，每次仅生成一个标记，且生成过程依赖于之前的标记。需要注意的是，作为前缀添加的概念并不参与 PCLM 损失的计算，该损失本质上仍是序列到序列的语言建模损失。

图 3. 概念交互模块（CIM）示意图。（a）词嵌入向量与语义概念之间的交互过程。（b）PCLM（可能为 “概念引导的掩码语言模型” 或类似缩写），其中带掩码的方块代表被掩盖的文本标记，这些标记可关注所有语义概念及前文的文本标记。（注：PCLM 的全称需结合论文上下文确认，此处基于掩码机制和语义概念的关联推测其核心功能是通过掩码训练让文本标记与语义概念建立关联，增强图文概念的交互能力。）

词嵌入向量与语义概念的交互

输入E即词嵌入向量，文本端的特征表示，作为查询Q输入，L为语义概念输入，即来自图像端的概念映射输出，作为键K和值V输入，三者输入到注意力机制中。（得到融合了图像特征的文本特征）
注意力机制通过经典的注意力机制Attention(Q,K,V)，让词嵌入向量与语言概念特征进行交互，挖掘两者的语义关联。
输出生成融合后的特征X，完成文本与图像概念的初步对齐。

PCLM（概念引导的掩码语言模型）机制

区域划分将特征空间分为概念位置C和词位置W，分别对应图像概念和文本词汇的特征区域，
掩码规则被掩码的文本标记（masked，棕色方块）可以关注所有语义概念C区域和前文的文本标记（W区域中未被掩码的部分）未被掩码的标记（unmasked，白色方块）则按常规注意力规则计算。
功能通过这种掩码设计，强制模型在预测被掩码的文本时，必须结合图像语义概念和已有的文本信息，从而增强图文概念的交互和对齐，提示文本的语义准确性。

3.4.2 Transformer

翻译

如图 2 所示，所提 Transformer 遵循标准 Transformer [29] 的结构，编码器由 o 个相同的层堆叠而成。每个编码层依次堆叠自注意力块和位置 – wise 全连接前馈网络（FFN），并在第一个和第二个子层周围分别加入残差连接和层归一化。每个编码层的输入包括前一个编码层的输出，其中第一层的输入采用 GFE 模块的输出\(\tilde{F}_{1}\)。经过 o 个编码层后，得到编码器的最终输出\(F_{e}\)。

解码器同样由 o 个相同的解码层堆叠而成，每个解码层包含掩码自注意力、交叉注意力和 FFN 层，且在每个子层周围均加入残差连接和层归一化。与编码器类似，每个解码层的输入包括前一个解码层的输出和编码器的输出\(F_{e}\)，其中第一层的输入为交互式概念网络的输出。最后，将最后一个解码层的输出\(F_{d}\)作为解码器的输出，并将其输入到全连接层和 SoftMax 中，计算在词汇表所有可能词汇上的概率分布。

1、所提Transformer遵循标准的Transformer结构。

2、编码器包含自注意力机制和前馈神经网络两个核心组件，这两个组件被重复堆叠o次，输入流程：输入数据（如图像特征）首先进入自注意力模块，捕捉序列内部的依赖关系；随后进入前馈网络，对特征进行变换与增强，每一层的输出都会通过残差连接与输出进行特征融合（缓解深层网络的梯度下降问题），最后传递给解码器的交叉注意力模块。

3、解码器包含自注意力、交叉注意力、前馈神经网络，流程：输入数据首先经过概念交互模块进行图文交互，而后进行解码器，自注意力模块捕捉文本序列内部的依赖关系、交叉注意力模块建立文本序列与编码器输出特征之间的关联、前馈网络对特征进行最终的变换与输出，生成融合图像特征的文本内容。

3.5 训练与目标函数

3.5.1 基于交叉熵损失的训练

翻译

遵循图像 captioning 任务的标准做法 [10]-[11]，首先采用词级交叉熵损失（XE）对模型进行训练，损失函数定义如下：\(L_{c}(\theta)=-\sum_{t=1}^{T} \log \left(p_{\theta}\left(y_{t} | y_{[1, t-1]}\right)\right)\)其中，\(y_{[1, t-1]}\)表示真实序列的一部分，即从起始位置到第\((t-1)\)个时间步的词汇序列；T 为最大时间步；\(\theta\)表示模型的可学习参数。

3.5.2 CIDEr分数优化

翻译

然而，近期研究 [23] 表明，交叉熵训练可能导致暴露偏差问题，即模型在训练阶段以真实词汇作为输入，而在测试阶段却以自身预测结果作为输入。这种差异会使模型的误差逐渐累积，从而降低其在序列预测任务中的性能。为此，将自批判序列训练强化学习方法 [48] 应用于图像 captioning 任务，该方法将推理过程融入训练过程，并引入序列级评估指标 CIDEr 作为损失函数中的奖励函数。这种方式有助于缩小训练与测试阶段的差距，同时使模型学会基于之前的预测结果生成词汇。奖励函数和损失函数构建如下（原文此处公式表述不完整，未明确写出具体表达式，故保持原样）：其中，k 为样本数量；\(w^{i}\)表示束搜索中采样的第 i 个语句；\(r(\cdot)\)表示奖励函数；\(b=1 / k \sum_{i=1}^{k} r(w^{i})\)为基准奖励，用于保证训练的稳定性。

4 实验研究

4.1 实验设置与数据集

翻译

为验证所提 ICNET 的性能，在三个公开数据集（Sydney-captions、UCM-captions 和 NWPU-captions）上进行实验。表 1 总结了三个数据集的详细信息。

表1.数据集的统计信息

使用数据集三个Captions：UCM-Captions、Sydney-Captions、NWPU-Captions

4.1.1 Sydney-captions 数据集

翻译

该数据集基于遥感场景数据集 Sydney 数据集 [67] 构建，包含 613 幅图像，分为 7 类场景：居民区、机场、草地、河流、海洋、工业区和跑道。每幅图像尺寸为 500×500 像素，像素分辨率约为 50 厘米。所有图像均从谷歌地球下载的悉尼地区原始图像（尺寸为 18000×14000 像素）中人工提取得到。

4.1.2 UCM-captions 数据集

翻译

该数据集基于美国加州大学默塞德分校的土地利用遥感场景分类数据集 [68] 构建，包含 2100 幅图像，涵盖 21 类典型土地利用场景，包括农业用地、飞机、棒球场、海滩、建筑物、灌木丛、高密度住宅区、森林、高速公路、高尔夫球场、港口、十字路口、中密度住宅区、移动房屋公园、立交桥、停车场、河流、跑道、低密度住宅区、储油罐和网球场。每个类别包含 100 幅图像，尺寸均为 256×256 像素，RGB 空间像素分辨率为 30 厘米。UCM 数据集从美国地质调查局（USGS）下载的航空正射影像中提取得到。

4.1.3 NWPU-captions 数据集

翻译

该数据集基于西北工业大学创建的遥感图像分类数据集构建，包含 31500 幅航空遥感 RGB 三通道图像和 157500 条图像描述语句。每幅图像尺寸为 256×256 像素，地面采样距离范围为 0.2-30 米。此外，为提升语句的语义丰富度，每幅图像都配有 5 条不同的描述文本。

表 2 训练集 – 验证集 – 测试集的划分策略。

翻译

在这三个数据集的每幅图像都由不同观测者提供 5 条描述语句。数据集的训练集、验证集和测试集划分方式与原始文献保持一致，均按照 80%/10%/10% 的比例划分，具体样本数量如表 2 所示。需要注意的是，部分对比方法未采用默认的数据集划分方式，而是采用随机划分。因此，本文统计了对比方法的划分方式：文献 [18]、[28]、[23]、[74]、[75] 采用随机划分；文献 [19]、[27]、[62]、[69] 采用标准划分；文献 [22]、[49]、[76]-[80] 未明确说明划分方式。

为保证与对比方法的公平性，受 [23] 和 [27] 启发，对每个数据集按照相同比例进行 5 次实验，每次实验采用不同的随机划分。为获得更可靠的结果，剔除每次实验中的最优和最差结果，对剩余结果取平均值并计算标准差。

所提 ICNET 遵循遥感图像 captioning 任务的标准实践，采用在 ImageNet 上预训练的 ResNet-152 提取区域特征，采用以 ViT-b/32 为骨干网络的预训练 CLIP 图像编码器提取全局特征。借助 ViT，CLIP 图像嵌入能够对所有图像块的视觉标记进行编码；此外，视觉与文本的融合进一步丰富了两种模态的信息嵌入。

随后，采用包含\(N=3\)个相同层的标准 Transformer 框架，在多头注意力机制中使用 8 个并行注意力层。对于文本表征，在每个真实序列的前后分别添加起始标记⟨bos⟩和结束标记⟨eos⟩。训练阶段，解码器的输入为真实序列；而在推理阶段，解码器只需输入起始标记⟨bos⟩。词嵌入维度设置为 512，位置编码的最大序列长度为 128，输出序列的最大长度为 25。

实验中，批处理大小设置为 50，采用 Adam 优化器优化模型参数；为避免过拟合，在每个注意力层和 FFN 层后采用概率为 0.1 的丢弃策略（dropout）；每个 FFN 层的隐藏维度设置为 2048。此外，通过设置 “耐心值（patience）” 监控模型在验证集上的性能，以决定是否需要对模型进行改进。所有实验在配备 NVIDIA Tesla V100-32GB 显卡的设备上进行，基于 Pytorch 1.12.1 框架实现。

在交叉熵训练过程中，采用学习率调度策略 [29]，该策略包含 10000 次迭代的预热操作。将在验证集上取得最高 CIDEr 分数的模型保存为后续训练阶段或推理过程的初始化模型。当耐心值达到 5 时，训练重点转向 CIDEr 优化，并将学习率固定为5×10的-6次方在优化和解码阶段，均采用束大小为 5 的束搜索生成候选序列。

4.2 评估指标

翻译

为从多个角度评估模型性能，选取图像 captioning 任务中常用的 6 种评估指标：BLEU [70]、METEOR [71]、ROUGE-L [72]、CIDEr [73]、SPICE 和Sm

1、选取图像 captioning 任务中常用的 6 种评估指标：BLEU、METEOR、ROUGE-L、CIDEr、SPICE 和Sm

4.2.1 BLEU

翻译

BLEU 是衡量生成文本与参考文本相似度的常用自动评估指标，更侧重于精确率。它通过计算生成文本中出现在参考文本中的 n 元语法（从 1 元到 4 元）的比例，结合精确匹配和部分匹配来计算分数。其中，n 元语法指由 n 个连续词汇组成的序列，n 的取值范围为 1-4。

4.2.2 METEOR

翻译

METEOR 结合了精确匹配和非精确匹配准则（如同义词和词干匹配），通过调用外部词典识别同义词和词干，能够更全面地评估生成文本的质量。

4.2.3 ROUGE

翻译

ROUGE 是衡量生成文本与参考文本召回率的评估指标，通过比较最长公共子序列的长度来评估生成文本与参考文本的相似度。

4.2.4 CIDEr

翻译

CIDEr 是专门用于图像 captioning 任务的评估指标，关注生成描述的多样性和一致性。它通过比较生成文本与多个参考文本之间的词频统计信息来计算分数，强调在多个参考文本间的一致性。

4.2.5 SPICE

翻译

SPICE 是针对图像描述评估提出的指标。与传统基于 n 元语法、主要通过计算参考文本与生成文本间词汇重叠度的评估方法不同，SPICE 利用语义解析树衡量生成文本与参考文本的相似度，能够实现更优的语义匹配。

4.2.6 Sm

翻译

Sm为 BLEU-4、METEOR、ROUGE 和 CIDEr 四种指标的算术平均值，可全面评估生成描述的质量。

4.3 对比方法

翻译

为评估所提 ICNET 的有效性，将其与以下几种当前主流方法进行对比：

MLAT [28]：利用 LSTM 融合 ResNet-50 不同层的特征以提取多尺度信息，随后通过多层聚合 Transformer 生成描述文本。

Soft-attention 和 Hard-attention [74]：分别在 CNN-RNN 框架中引入硬注意力和软注意力机制。

FC-Att + LSTM 和 SM-Att + LSTM [18]：基于属性注意力机制，融合低层次特征和高层次属性特征，结果来源于 [76]。

Trans + SCST [75]：提出一种新的 Transformer 结构，在 Transformer 中添加丢弃层、残差连接和自适应特征融合，并采用强化学习提升模型的实际性能。

Word-Sentence [62]：典型的编码器 – 解码器框架，由词提取器和语句生成器组成，旨在从遥感图像中提取词汇并组成连贯语句。

MLCA-Net [69]：通过多级上下文注意力模块聚合不同尺度的特征和潜在上下文信息，并通过 LSTM 生成描述文本。

MC-Net [76]：包含一个增强型编码器（配备多尺度提取模块）、一个特征融合模块以及一个微调后的 LSTM（配备视觉 – 文本对齐模块）。

GLCM [27]：基于注意力的全局 – 局部描述生成模型，通过 CNN 提取全局和局部特征用于语句生成。

PKG-Transformer [23]：首先利用目标 – 目标和场景 – 场景关系丰富目标和场景特征，然后将场景 – 目标关系作为先验知识融入 Transformer 编码器。

FPHD [77]：基于分层图像信息区分前景和背景，设计可变形 Transformer，并通过交互从前景和背景中学习多尺度特征。

BITA [78]：利用轻量级交互式傅里叶变换实现遥感图像 – 文本特征对齐，并采用两级视觉 – 语言预训练方法指导交互式图像 – 文本对齐。

CASK [79]：通过语义概念提取器捕捉语义概念，将联合视觉 – 语义协同注意力融入共识构建模块，以学习跨模态共识感知知识。

PureT [49]：采用 Swin Transformer 提取图像特征，通过优化编码器捕捉特征间的关系，解码器将优化后的特征逐字解码为描述文本，结果来源于 [19]。

RS-CapRet [22]：采用 CLIP 对描述文本进行编码，通过简单的融合网络生成描述文本并实现文本 – 图像检索，随后对 LLamaV2-7B 模型进行微调。

BLIP-2 [80]：一种视觉 – 语言预训练方法，借鉴 BERT 基础模型的设计思路，采用 Q-Former 结构实现多模态融合。

HCNet [19]：采用 CNN 进行分层视觉特征提取，通过 LSTM 实现语言生成。

1、对比模型：MLAT、Soft-attention 和 Hard-attention、FC-Att + LSTM 和 SM-Att + LSTM、Trans + SCST、Word-Sentence、MLCA-Net、MC-Net、GLCM、PKG-Transformer、FPHD、BITA、CASK、PureT、RS-CapRet、BLIP-2

4.4 与现有方法的对比

翻译

本节将所提 ICNET 与上述多种主流方法（包括基于注意力的方法和基于 Transformer 的方法）进行选择性对比，结果如表 3 – 表 5 所示。实验结果如图 4 所示，基于 Transformer 的方法在性能上一定程度优于其他方法，而所提模型在大多数指标上均取得了最优的实验结果。

这一优势的原因在于：所提模型不仅利用语义概念并保留对后续文本生成有帮助的全局信息，还保留了图像中显著区域或目标的特征，通过对局部特征的映射进一步提升了这些特征的表征能力，从而增强了模型对目标邻域特征的感知能力。在文本生成过程中，解码器直接与所有类型的概念相连，而传统 Transformer 的解码器仅关注编码器最后一层的输出。所提方法的这一设计使得不同类型的特征都能参与文本生成，同时提供全局信息和局部显著区域信息，充分体现了 ICNET 的优越性。

表3.部分先进方法在 SYDNEY-CAPTIONS 数据集上的对比。所有结果均以百分比（%）形式呈现。符号 “-” 表示该文献未报告此结果。

表4.部分先进方法在 UCM-CAPTIONS 数据集上的对比。所有结果均以百分比（%）形式呈现。符号 “-” 表示该文献未报告此结果。

表5.部分先进方法在 NWPU-CAPTIONS 数据集上的对比。所有结果均以百分比（%）形式呈现。符号 “-” 表示该文献未报告此结果。

4.5 消融实验

翻译

通过消融实验评估 ICNET 中各模块对整体性能的贡献。将仅包含 ViT 和 Transformer 的模型作为基准模型（Baseline），通过逐一添加三个模块构建消融模型：模型 1（Model-1）为基准模型 + GFE 模块；模型 2（Model-2）为基准模型 + CNN+CIM 模块；模型 3（Model-3）为基准模型 + CMN+CIM 模块；ICNET 为基准模型 + GFE+CMN。采用 8 种综合评估指标（BLEU1、BLEU2、BLEU3、BLEU4、METEOR、ROUGE、CIDEr 和Sm对三个测试数据集上的模型性能进行评估，结果如表 6 – 表 8 所示。

4.5.1 CMN的作用

翻译

通过基准模型、模型 2 和模型 3 探究 CMN 在模型中的作用。CMN 模块用于将 CNN 提取的局部特征转换为语义概念，以便与词嵌入进行交互。对于模型 2，直接对 CNN 提取的特征进行全局平均池化后用于交互。三个数据集测试集的结果显示，模型 3 的性能优于模型 2，而模型 2 由于引入局部特征，相较于基准模型也有显著提升。这一结果验证了将局部特征与全局特征结合使用有助于提升模型性能。

4.5.2 GFE的作用

翻译

类似地，在三个数据集上探究 GFE 模块的影响。通过对比基准模型与模型 1 的性能（如图 5 所示）可以发现，GFE 模块通过过滤全局特征中的无关或弱相关内容，有效提升了模型性能。例如，在 Sydney-captions 数据集的工业区场景描述结果中，“道路旁的草坪” 这一无关表述被成功过滤。此外，注意力门控能够选择性地突出特征中的重要信息，为模型提供更鲁棒的全局表征和更优的区分能力。

4.5.3 配备CIM的Transformer

翻译

在三个数据集上验证 CIM 模块的有效性，表 9 – 表 11 对比了不同交互方式的性能。结果显示，与传统的特征加法和乘法交互方式相比，CIM 模块的性能更优；同时，图 6 中三种交互方式在 8 个量化指标上的分布对比也表明，所提方法的各项指标均更优。在 Sydney-captions 数据集上，Sm分数相较于加法交互提升了 9.58%，相较于点积交互提升了 5.57%；在 UCM-captions 数据集上，Sm分数相较于加法交互提升了 7.55%，相较于点积交互提升了 3.95%；在 NWPU-captions 数据集上，Sm分数相较于加法交互提升了 3.79%，相较于点积交互提升了 2.68%。

表6.Sydney-captions 数据集上的消融实验结果（结果均以百分比（%）表示）

表 7 UCM-captions 数据集上的消融实验结果（结果均以百分比（%）表示）

表 8 NWPU-captions 数据集上的消融实验结果（结果均以百分比（%）表示）

4.6 定性分析

4.6.1 描述生成结果

翻译

如图 5 所示，从三个数据集（Sydney-captions、UCM-captions 和 NWPU-captions）中提取所提模型生成的部分描述结果。为进行对比，展示了九种描述结果：所提模型的结果、当前主流方法 GLCM 的结果、基准模型的结果、所提模型的基础组件模型 1 的结果，以及 GT1-GT5 五种真实标注结果。从图 5 中可以看出，与 GLCM 方法相比，所提方法生成的描述在目标描述准确性上更优，错误率更低。

具体而言，在图 5 中 Sydney-captions 数据集的第一幅图像中，前景（道路）隐藏在背景（工业区）中。在这种情况下，基准方法很难生成包含道路信息的语句，且生成结果缺乏可解释性；实际上，基准方法生成的描述中确实未包含道路信息。然而，所提模型能够有效提取这一隐藏的前景信息，并在生成的语句中体现出来，同时语句的完整性也满足要求。这些语句质量的提升得益于所提的 CMN 和全局特征增强模块，它们能够在特征交互学习过程中减少外部噪声的干扰。

类似的情况也出现在图 5 中 UCM 数据集的样本中。具体而言，第三个 “港口” 样本周围有许多船只，若没有先验知识，很难对其进行识别，因此基准方法生成的语句中未包含这一目标。在图 5 中 NWPU-captions 数据集的第一个样本中，由于船只数量与 “岸边” 目标距离较近且自身尺寸较小，识别难度较大；而所提 CMN 融入了多尺度思想，能够很好地识别出船只数量，这也体现了所提方法强大的泛化能力。其他样本同样证明了所提模型的优越性：在第二个样本中，所提方法检测到了基准方法遗漏的 “火力发电厂”；对于第三个样本中由绿色植物和水体构成的湿地，所提模型在描述生成上也取得了令人满意的结果。

图 5. 基准方法、Model-1、GLCM 及 ICNET 方法在三个数据集上生成的示例句子。GT 代表真实标注字幕（或 “参考字幕”）。红色文字与对应图像匹配错误，而部分关键物体及关系类词语则以绿色突出显示

4.6.2 注意力可视化

翻译

借助 CMN 中的注意力层，可对与词向量最匹配的语义概念进行注意力可视化。图 7 对比了所提 ICNET 与 GLCM 方法的注意力可视化结果。与 GLCM 方法相比，尽管并非所有词汇都能在图像中准确定位，但所提方法的大多数激活区域更合理。此外，有趣的是，一些连续词汇会对相同的局部特征产生响应。例如，在网球场景和居民区场景中，“两个网球场（two tennis courts）” 和 “一片居民区（a residential area）” 分别聚集到两个对应的局部特征上，这一现象反映了自然语言中从词汇到短语再到语句的层级结构。

图 7. ICNET 与 GLCM 方法在字幕生成过程中，所关注图像区域的可视化结果。红色表示高关注度区域

4.6.3 算法复杂度对比

翻译

本节对比所提方法与几种相关方法的计算复杂度，重点关注参数数量和浮点运算次数（FLOPs）。表 12 列出了具体的参数数量和 FLOPs 对比结果。与 GLCM 相比，所提 ICNET 的参数数量更多，这是因为 ICNET 基于 CNN 和 ViT 提取更全面的特征，但同时也能生成更优的描述文本。与 MLAT 和 PKG-Transformer 方法相比，所提 ICNET 的参数数量最少，且仍能取得良好的性能。最终，与基准模型相比，ICNET 在参数数量相近的情况下，性能得到了显著提升。

表12.MLAT、PKG-Transformer、GLCM、基准模型与所提 ICNET 的参数数量和 FLOPs 对比（“-” 表示该文献未报告此结果）

5 结论

翻译

本文提出一种基于多级特征聚合与跨模态特征交互的新型遥感图像 captioning 方法 ——ICNET。该方法旨在利用多尺度局部特征与全局特征，引导模型生成目标与关系描述准确的文本。在 Transformer 架构基础上，引入了概念映射网络（CMN）、概念交互模块（CIM）和全局特征增强（GFE）模块：为提升局部特征表征能力，提出 CMN 模块，对不同尺度的局部特征进行有效聚合，生成高层语义概念；通过 CIM 模块对语义概念与词向量的交互过程进行建模，将视觉特征映射中的相关特征向量整合为多个相对独立的词特征，从而弥合视觉特征与语义概念之间的鸿沟；为增强模型的全局区分能力，通过 GFE 模块获取更全面、更具区分性的特征表征，并以交叉注意力的方式将其注入模型，最终生成鲁棒性强、性能优异的描述文本。

与当前主流模型的对比分析表明，所提 ICNET 在三个遥感图像 captioning 数据集上均取得了更优的描述生成结果；此外，通过消融实验分析了各模块对模型性能的贡献。

1、本文提出的一种基于多级特征聚合与跨模态特征交互的新型遥感图像captioning方法，该方法旨在利用多尺度局部特征与全局特征，引导模型生成目标与关系描述准确的文本。

2、创新模块：引入了概念映射网络（CMN）、概念交互模块（CIM）和全局特征增强（GFE）模块

简介