DDRL: Domain Distribution Reconstruction Learning for Binary Change Detection in Remote Sensing Images

DDRL:面向遥感影像二值变化检测的域分布重构学习

论文地址

DDRL源码

发布期刊 IEEE TGRS 发布日期 2024.12.5

0 摘要

翻译

变化检测(CD)旨在识别和定位同一观测区域在双时相影像中的变化。该技术在城市规划、土地利用和灾害损失提取等领域具有广泛应用。基于深度学习的变化检测方法通常利用可学习编码器将双时相影像映射到公共领域分布空间,以实现变化特征与不变特征的区分和定位。然而,由于成像机制、季节和拍摄角度的差异,易产生大量伪变化,影响领域分布空间的准确识别。此外,二进制变化检测仅关注场景目标是否发生变化,导致变化标签涵盖多种不同目标,进而增大了类内差异的影响。针对上述问题,本文提出一种用于二进制变化检测的领域分布重构学习(DDRL)框架,通过检测异常特征领域分布有效缓解伪变化问题。具体而言,DDRL 首先利用孪生跨窗口自注意力模块从双时相影像中提取多尺度特征,实现原始空间到特征领域的转换;随后采用图注意力增强(GAE)模块优化低层领域分布,使其聚焦于变化区域;此外,通过跨领域特征对比学习(CFCL)模块对高层融合特征进行重构学习,确保类内特征紧凑、类间特征分散,显著提升领域分布表示能力以区分伪变化。实验结果表明,所提 DDRL 在多个公开数据集上表现优异,优于主流方法,大幅提升了变化检测性能。源代码将在https://github.com/yzygit1230/DDRL公开。

1、动机

  • 伪变化干扰严重双时相影像因成像机制、季节、拍摄角度的差异,易产生大量伪变化,影响领域分布空间的准确识别。简单来说:伪变化是“假的差异”,(因为各种因素导致未变化的区域被模型识别为真变化的区域),但它会让模型误以为是“真变化”,从而搞乱了特征的分类空间,让模型识别真实变化的维度变大。
  • 类内差异大二进制变化检测仅关注场景目标是否发生变化,导致变化标签涵盖多种不同目标,进而增大了类内差异的影响。简单来说就是:二进制变化检测只用“变/不变”两个标签,把原本特征差异很大的地物硬塞进同一个类别里,所以类内的特征混乱度(类内差异)被放大了。

2、贡献

1 引言

翻译

变化检测(CD)通过对比不同时间点拍摄的影像,评估同一区域内各类目标的变化并确定其具体位置 [1-3]。变化检测主要分为三类:面向对象的变化检测、二进制变化检测和多类语义变化检测。二进制变化检测的实用性和便捷性使其广泛应用于城市规划、环境监测和资源管理等实际场景 [4-6]。随着遥感成像技术的不断进步,遥感影像的分辨率和细节丰富度显著提升,传统依赖简单像素差异或变化向量的二进制变化检测方法难以捕捉复杂变化模式,已无法满足实际任务需求 [7-8]。因此,研究更先进、高效的二进制变化检测方法成为迫切需求。

技术革新推动了变化检测方法的发展,基于深度学习的方法展现出卓越性能 [9-11]。深度学习变化检测方法主要分为两类:基于分割的变化检测方法和基于度量的变化检测方法。如图 1(a)所示,基于分割的变化检测方法首先利用孪生编码器从输入双时相影像中提取特征,随后通过解码器融合特征并生成变化检测结果。该类方法采用分割损失函数将预测结果与真实变化标签对比,迭代优化模型参数,使网络学习更鲁棒的变化特征。此外,在网络各层融入注意力机制 [12-13]、密集特征聚合 [14-15] 和多尺度特征对齐 [16-17] 等先进技术,显著增强了网络有效提取变化特征的能力。显然,基于分割的变化检测方法性能很大程度上依赖于网络内部各模块的有效性,且仅在最深层计算分割损失以优化参数学习。相比之下,如图 1(b)所示,基于度量的变化检测方法利用孪生编码器提取原始双时相影像空间中的不同特征向量表示,封装各位置特征的抽象信息。通过对比不同时间点特征领域内的特征,计算特征间距离,将距离超过预设阈值的像素判定为变化区域。因此,基于度量的变化检测方法的核心在于最小化不变区域中时变特征的度量距离,同时最大化变化区域中的距离,最终通过距离阈值将领域分布距离图划分为变化类和不变类。此外,生成对抗网络 [18-19] 和优化对比学习损失 [20-21] 的融入,进一步提升了双时相影像特征分布的学习和区分能力。

尽管上述两类深度学习变化检测方法在各类应用中取得了令人瞩目的成果,但仍存在一定局限性。一方面,基于分割的变化检测方法由于缺乏有效的多层领域特征优化,深层特征挖掘不足。孪生网络采用权重共享编码器提取双时相影像特征,确保不同时间点的同一目标映射到相似的特征空间表示,因此同一位置的相同目标在特征空间中具有相似的特征表示。然而,大多数基于分割的变化检测方法仅通过解码器阶段生成的最深层特征图计算损失来优化模型,缺乏对孪生网络学习过程的显式约束。因此,由于对多层语义关系的探索不足,基于分割的变化检测方法学习具有显著域内差异信息的能力有限。另一方面,基于度量的变化检测方法通过孪生编码器将双时相影像特征转换到特征领域,利用度量距离直接优化孪生编码器。通过手动设置阈值,最小化不变区域特征间的度量距离,最大化变化区域特征间的距离,最终生成变化检测结果。然而,同一位置的土地覆盖在双时相影像中可能存在显著差异,给特征领域带来噪声和干扰,不可避免地导致假阳性和漏检。因此,上述两种方法各有优劣:基于分割的变化检测方法擅长从双时相影像中直接学习有价值的特征和变化模式,降低了手动阈值选择的复杂性,适用于变化区域明确的场景;而基于度量的变化检测方法深入探索特征领域内不变区域与变化区域之间的度量关系,在孪生编码器阶段约束特征学习,这一能力是基于分割的变化检测方法所欠缺的,使其在处理复杂背景和细微变化时具有显著优势。因此,有效融合上述两种变化检测方法的互补优势具有重要研究价值。

众所周知,同源遥感影像虽均为光学影像,但成像机制、季节和拍摄角度的差异易导致大量伪变化干扰,使得特征领域内特征的细微差异难以辨别。为此,本文提出一种用于变化检测的领域分布重构学习(DDRL)框架。如图 1(c)所示,DDRL 无缝融合了基于分割和基于度量的变化检测方法的优势,构建了基于领域分布的变化检测框架。通过孪生编码器实现特征领域转换后,利用基于度量的变化检测方法原理,对特征领域内提取的多尺度特征进行重构学习,约束孪生编码器有效重构异常特征领域,引导解码器更精准地聚焦于变化区域。此外,通过将变化检测结果与真实标签对比,网络从双时相影像中直接学习有意义的变化模式。这种隐式与显式的网络协同优化,共同增强了网络对变化区域的感知能力,同时减轻了伪变化带来的干扰。本文的主要贡献如下:

  1. 提出一种用于变化检测的 DDRL 框架,利用重构学习使特征领域内类内特征紧凑、类间特征分散,增强对不同类别特征的感知能力,准确识别双时相影像中的变化区域。据我们所知,DDRL 是首个融合基于分割和基于度量的变化检测方法优势的创新尝试。
  2. 设计图注意力增强(GAE)模块优化低层领域分布,通过在图上迭代传播和聚合特征信息,突出目标特征的显著变化,减少无关噪声影响,使网络能够感知变化区域并为后续深层特征提取提供先验信息。
  3. 构建跨领域特征对比学习(CFCL)模块,采用深度对比学习损失对深度融合特征进行重构学习。该模块探索各类特征间的全局语义关系,减小不变特征间的度量距离,同时增大变化特征间的距离。此外,构建显著特征区域库存储代表性嵌入,提升伪变化区分能力。

图 1 不同深度学习变化检测方法架构:(a)基于分割的变化检测方法;(b)基于度量的变化检测方法;(c)基于领域分布的变化检测框架

2 相关工作

2.1 基于分割的变化检测

翻译

传统图像分割通常以单幅影像为输入,而变化检测涉及同一位置不同时间的双时相影像。早期基于分割的变化检测方法通过影像差分或拼接构建变化检测输入,不可避免地导致部分细节信息丢失 [22]。随后,部分研究采用权重共享孪生网络处理双时相影像,提升了特征对比的准确性,能够更好地检测变化位置和类别。例如,GASNet [23] 利用全局感知孪生网络,通过融入背景与变化区域的共现关系增强变化特征表示,生成有效的全局变化检测结果;CARGNet [24] 采用基于点的变化区域增长模块,将稀疏点标签转换为全面的扩展标签,基础解码器和扩展解码器分别由点标签和扩展标签监督,通过最小化两个解码器预测结果的差异实现变化检测结果的一致性;SAGNet [25] 利用孪生编码器提取高代表性特征,并通过双边特征融合模块有效整合差异信息和全局信息,提升变化细节的定位精度;SMDNet [26] 采用孪生特征差异编码器捕捉影像间差异,同时感知地物边缘特征,随后通过渐进式采样整合关键特征,增强对不同环境的适应性。尽管这些方法在一定程度上提升了变化检测精度,但基于分割的方法仍未能充分学习变化信息。由于仅在网络最深层输出变化检测结果并与变化标签对比学习变化模式,这种隐式学习方式未能充分挖掘浅层特征的潜力,且特征提取过程中缺乏显式约束,导致深层特征包含大量冗余信息和噪声。

2.2 基于度量的变化检测

翻译

与基于分割的方法不同,基于度量的变化检测方法采用显式方式优化双时相影像在特征领域内的特征相似性。将领域分布对比学习思想应用于变化检测的动机在于:当孪生编码器提取的特征映射到特征领域时,变化区域的特征向量表现出显著的不相似性,而不变区域的特征向量则具有相似性 [27]。因此,通过对比学习损失显式度量和优化不变区域特征的相似性与变化区域特征的不相似性,基于度量的方法能够实现更精准的变化检测。DASNet [28] 通过双注意力模块增强特征领域内的特征判别能力,并利用加权双边际对比损失优化不同类别特征间的距离,有效解决类别不平衡问题;DSAMNet [29] 采用深度度量学习方法,通过度量模块学习特征领域中间层嵌入特征向量的度量距离,提供更具判别力的特征,从而促进变化映射的学习;Xu 等人 [30] 利用胶囊网络提取双时相影像的向量表示,通过向量余弦相似度和向量差在胶囊网络内进行特征对比,有效提升变化像素与不变像素的判别能力;CDSCL [31] 基于孪生对比学习结构,采用负余弦相似度对比损失函数,确保孪生编码器提取的特征间具有更紧密的交互,生成更一致的变化检测结果。尽管基于度量的方法在特征表示上具有更强的可解释性,但时相影像中存在的大量伪变化不可避免地影响领域分布空间的准确识别。因此,融合基于分割和基于度量两类方法的互补优势,是提升变化检测整体性能的重要方向。

2.3 变化检测中的注意力机制

翻译

尽管孪生编码器能够从双时相影像中提取富含语义信息的多尺度特征,但不可避免地会捕捉整幅影像的大量数据,包括部分冗余噪声信息。受人类视觉机制启发 —— 注意力并非均匀分布,而是聚焦于感兴趣区域,注意力机制被引入变化检测方法中,使网络能够选择性地关注关键区域特征 [32]。例如,PGCFN [33] 首先对双时相影像的地理空间位置进行编码,然后将编码后的位置信息与位置感知图注意力网络融合,在城市多类变化检测中取得了优异性能;CDNeXt [34] 引入时空交互注意力模块,利用孪生编码器查询得到的时间和空间注意力分数重建时空语义相关性,有效应对时间风格差异的影响。尽管上述注意力机制有效增强了对影像内局部显著信息的关注,但双时相影像的变化检测任务需要更广阔、全面的视角来涵盖变化的整体及其上下文细节。简单的注意力机制可能难以有效处理变化的多尺度特征或不同时间点的时间模式。因此,提升变化检测精度可能需要更复杂、自适应的注意力机制,以应对多尺度现象、长期依赖关系和特征表示中的时间变化。

基于上述考虑,通过融合基于分割和基于度量两类方法的优势,对变化检测网络进行显式和隐式优化,并利用注意力机制显著增强变化特征,有望实现变化检测性能的大幅提升和优化。

3 方法原理

3.1 DDRL框架概述

翻译

显然,基于分割和基于度量的变化检测方法由于其检测机制等因素均存在固有缺陷:前者缺乏对损失学习过程的显式约束,后者易受度量阈值的不必要干扰。为此,本文提出基于领域分布重建学习的 DDRL 框架,有效克服这两类方法的不足。

如图 2 所示,所提 DDRL 框架包括孪生交叉窗口自注意力编码器、用于低层特征增强的 GAE 模块、特征交互的 MSFI 模块以及基于度量和对比学习的 CFCL 模块。首先,将原始双时相影像\(I_{pre}\)和\(I_{post}\)输入孪生交叉窗口自注意力编码器,提取多尺度特征\((I_{pre}^{i}, I_{post}^{i})\)(\(i \in[1,4]\));低层特征\((I_{pre}^{i}, I_{post}^{i})\)(\(i \in[1,2]\))经 GAE 模块在通道维度增强后,与高层特征\((I_{pre}^{i}, I_{post}^{i})\)(\(i \in[3,4]\))拼接,输入多尺度特征交互(MSFI)模块进行逐层交互,通过解码器生成变化检测结果。在损失约束方面,DDRL 利用变化检测结果与真实标签计算分割损失;同时,在 CFCL 模块中,利用高层融合特征和真实标签实现类内特征聚合与类间特征分散,基于像素级相似度对嵌入空间施加全局约束。

注:双时相影像输入孪生编码器提取多尺度特征,低层特征经 GAE 模块增强特征表示后,与高层特征一起进行跨层交互生成变化检测结果;此外,高层特征交互得到的特征用于计算深度对比损失,实现类内特征聚合和类间特征分散,帮助变化检测结果更贴合真实标签。

图 2 所提 DDRL 框架概述双时相影像输入孪生编码器以提取多尺度特征,低层特征经图注意力增强(GAE)模块提升特征表示能力后,与高层特征共同进行跨层交互,生成变化检测(CD)结果。此外,高层特征交互得到的特征用于计算深度对比损失,实现类内特征聚合与类间特征分散,助力变化检测结果更贴合真实标签。

(说明:翻译严格遵循技术文本准确性原则,关键术语如 “Siamese encoder”“GAE module”“depth contrastive loss” 等采用遥感图像处理领域通用译法;句式结构适配中文表达习惯,将长句拆分为逻辑连贯的短句,同时保留 “跨层交互”“类内特征聚合” 等核心技术表述的专业性,确保与论文整体翻译风格一致。)

3.2 孪生交叉窗口自注意力模块

翻译

基于孪生编码器的网络是当前主流的变化检测框架,能够有效从双时相影像中学习抽象特征和表示,实现不同领域间的特征迁移。孪生编码器的目的是从双时相影像的异常区域提取具有判别力的特征空间表示,同时保持不变区域的特征表示一致性。因此,孪生编码器的特征提取能力在很大程度上决定了模型的整体变化检测性能。当前最先进的骨干网络 CSwin [35] 在计算机视觉领域表现出优异性能。为使孪生编码器与后续领域分布处理模块充分融合,本文采用 CSwin 作为 DDRL 的孪生交叉窗口自注意力模块。得益于窗口注意力和局部增强位置编码结构,孪生交叉窗口自注意力模块能够适应不同尺寸的输入特征,非常适合下游变化检测任务。将经过其四个注意力阶段处理的双时相多尺度特征作为孪生编码器的输出,应用于后续的 GAE 和 CFCL 模块。

3.3 图注意力增强(GAE)模块

翻译

在双时相影像中,严重的类别不平衡导致显著的梯度消失问题,而通道注意力机制通过对多尺度特征加权以聚焦关键通道特征,图卷积则通过领域聚合捕捉关键特征节点间的结构依赖关系。因此,如图 3 所示,本文采用 GAE 模块在通道维度增强低层领域分布,使其聚焦于变化区域,降低无关噪声的影响,从而有效表示变化区域特征。

具体而言,在通道维度执行基于图的关系感知操作,构建更全面的上下文依赖关系。原始双时相影像经孪生交叉窗口自注意力模块处理得到多尺度特征图,由于低层特征包含更多空间信息,且高维特征通道的计算消耗更多资源,仅对前两个阶段的双时相特征进行图注意力增强。首先,将特征图输入由平均池化和全连接层组成的通道处理函数\(\sigma()\),对其进行压缩并映射为特征表示向量;随后,自相似度计算函数\(\alpha()\)将这些特征表示向量转换为通道注意力矩阵 AM,经 softmax 操作得到通道注意力权重 AW。因此,输入特征的通道注意力实现过程可描述为:\(AM=\sigma (\alpha (f)) \quad (1)\)

接下来,学习每个通道中 AM 和 AW 的特征领域分布间的图关系,将特征向量转换为图结果数据,重建图节点、边索引和边权重之间的依赖关系。具体而言,通过全局池化操作结合通道注意力权重得到每个通道表示的节点特征,将通道注意力矩阵作为节点间调度边的权重关系,作为节点间边的邻接矩阵:\(G_{i, w}=\left\{ G_{i}, G_{w}\right\} =\left\{ \begin{array} {ll}{G_{i}=AW× GAP\left( f_{post }\right) }\\ {G_{w}=AM}\end{array} \right.\)其中,GAP () 表示全局平均池化操作,\(G_{i, w}\)表示输入特征在对应通道上图结构中的边索引和边权重集合。随后,采用由 ReLU 激活函数组成的图卷积操作模块感知\(G_{i, w}\)中的节点关系,聚焦变化区域并增强图节点间的权重比例,从而强化变化区域节点的表示能力。上述过程可计算为:\(G_{i, w}^{s}=ReLU(GCN(G_{i, w})) \quad (3)\)其中,\(G_{i, w}^{s}\)表示增强后的图特征。最后,通过 softmax 激活函数将\(G_{i, w}^{s}\)映射为特征向量,并与输入特征 f 相乘,得到 GAE 模块的输出数据 F:\(F=softmax(G_{i, w}^{s}) \otimes f \quad (4)\)

因此,GAE 模块通过利用基于图的注意力机制,得到更准确、鲁棒的特征表示,显著提升了对显著特征的识别和区分能力。

图 3 所提图注意力增强(GAE)模块概述

3.4 跨域特征对学习(CFCL)模块

翻译

由于对比学习能够通过控制正负样本对之间的相似度增强相似区域的空间一致性,有效聚合真实变化区域的特征节点。如图 4 所示,所提 CFCL 模块主要包括利用锚点采样方法构建显著特征区域库,实现领域分布的全局语义感知;此外,利用深度对比损失将不相似特征区域的表示向量推开,同时拉近相似特征区域的表示向量。

图 4 所提跨域特征对比学习(CFCL)模块概述

3.4.1 显著特征区域库

翻译

本文提出的领域分布对比学习的核心思想是:给定锚点,在投影嵌入空间中区分相似和不相似特征。考虑到深层特征包含丰富的语义信息,能够捕捉数据中的复杂模式和高层概念,CFCL 模块将孪生编码器提取的高层特征\(f_{pre}^{4}\)和\(f_{post}^{4}\)拼接构建库,通过补丁嵌入操作将这些拼接后的特征映射到低维向量空间,生成嵌入\(E_{r}\)。上述过程可计算为:\(E_{r}=E\left( concat\left( f_{pre}^{4}, f_{post}^{4}\right) \right) \quad (5)\)其中,concat () 表示拼接操作,E () 表示补丁嵌入操作。显著特征区域库通过聚焦学习变化区域的特征,为深度对比损失提供支持,从而增强其在重建学习过程中的区分能力。将嵌入\(E_{r}\)、标签图\(f_{gt}\)和预测结果\(f_{p}\)输入锚点采样函数\(\delta()\),建立库\(R_{s}\):\(R_{s}=\delta\left( E_{r}, f_{gt}, f_{p}\right) \quad (6)\)其中,\(E_{r}\)用于计算领域分布中的特征差异,\(f_{gt}\)作为训练过程中的监督信号,\(f_{p}\)提供输入影像的初始识别信息,指导显著特征区域的选择。具体而言,锚点采样函数包括两个主要步骤:确定显著特征区域和随机排列锚点进行采样。首先,基于\(f_{p}\)对\(E_{r}\)的领域特征进行筛选,识别并统计超过阈值频率的特征分布点,将这些点与\(f_{gt}\)对比,确定显著区域和非显著区域的索引作为锚点;其次,根据最大存储限制和显著区域存储阈值动态调整采样区域;最后,通过随机排列建立最终的显著特征区域库\(R_{s}\)。

3.4.2 深度对比损失

翻译

库的建立实现了全局语义信息的区分,为深层特征的跨域对比学习奠定了基础,促使 CFCL 模块聚焦于显著变化区域。首先,基于输入特征向量之间的点积计算相似度矩阵;为避免数值溢出,对得到的矩阵 sim\((f_{i}, f_{j})\)进行数值稳定处理:\(sim\left( f_{i}, f_{j}\right) =\frac{exp\left( \frac{f_{i} \cdot f_{j}}{\tau}\right) }{\sum_{k \neq i} exp\left( \frac{f_{i} \cdot f_{k}}{\tau}\right) } \quad (7)\)其中,\(f_{i}\)表示来自\(R_{s}\)的第 i 个锚点特征,\(f_{j}\)表示来自标签的第 j 个特征,τ 是控制相似度的温度参数,在本文实现中设置为 0.1,k 表示第 i 行中除第 j 列外数值最大的列。随后,计算数值稳定后的相似度矩阵的对数概率,以衡量领域分布区域内变化特征和非变化特征之间的相似度:\(log\_prob=log\left( sim\left( f_{i}, f_{j}\right) \right) \quad (8)\)其中,exp () 和 log () 分别表示指数和对数运算。最后,利用标签掩码对每个特征向量的对数概率进行加权平均,从而优化模型的特征表示。深度对比损失可表示为:\(L_{dcl}=-\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{N} M_{ij} \cdot log\_prob \quad (9)\)其中,\(M_{ij}\)表示标签掩码,指示 i 和 j 是否属于同一变化区域,N 表示特征索引的总数。通过库与标签图的对比,CFCL 模块减小了不变特征间的度量距离,同时增大了变化特征间的度量距离。

3.5 目标函数

翻译

为指导 DDRL 进行端到端特征学习,采用混合损失函数\(L_{hybrid}\)对变化检测任务进行全监督训练:\(L_{hybrid}=L_{seg}(P, G) + \lambda \cdot L_{dcl} \quad (10)\)其中,P 表示 DDRL 的最深层预测变化检测结果,G 表示真实标签,\(L_{seg}()\)表示分割损失,由二元交叉熵损失和 Dice 损失组成,\(L_{dcl}()\)表示领域分布损失,λ 是自定义参数,在本文实现中设置为 0.2。二元交叉熵损失和 Dice 损失可表示为:\(L_{bce}=-\frac{1}{H \times W} \sum_{x=1}^{H} \sum_{y=1}^{W} \left( G(x,y)log(P(x,y)) + (1-G(x,y))log(1-P(x,y)) \right) \quad (11)\)\(L_{dice}=1 – \frac{2 \sum_{x=1}^{H} \sum_{y=1}^{W} G(x,y)P(x,y) + \epsilon}{\sum_{x=1}^{H} \sum_{y=1}^{W} G(x,y)^2 + \sum_{x=1}^{H} \sum_{y=1}^{W} P(x,y)^2 + \epsilon} \quad (12)\)\(L_{seg}=L_{bce} + L_{dice} \quad (13)\)其中,H 和 W 分别表示影像的高度和宽度,ε 是为避免分母为零设置的微小常数。在式(10)中,\(L_{seg}()\)和\(L_{dcl}()\)相互补充:一方面,\(L_{dcl}()\)在度量空间中优化 DDRL,增强特征表示,帮助解码器网络准确识别变化区域;另一方面,\(L_{seg}()\)自动与变化检测真实标签对齐,从而减轻伪变化和人工干预相关问题。

4 实验

4.1 数据集

4.1.1 LEVIR-CD

翻译

LEVIR-CD [36] 源自美国得克萨斯州多个城市 2002-2018 年的建筑变化数据,包含 637 对分辨率为 1024×1024 像素、空间分辨率为 0.5 米的遥感影像,涵盖别墅、公寓和大型仓库等多种建筑变化类型。将原始影像分割为 256×256 像素的块,去除重叠区域后,划分为训练集、验证集和测试集,分别得到 3096、432 和 921 对双时相影像及其对应标签。

4.1.2 WHU-CD

翻译

WHU-CD [37] 由武汉大学发布,包含新西兰克赖斯特彻奇市 2012-2016 年地震后重建的土地覆盖变化数据,包含一对尺寸为 32507×15354 像素、空间分辨率为 0.75 米的遥感影像。将原始影像分割为 256×256 像素的非重叠影像块,进一步划分为训练集(5201 幅)、验证集(744 幅)和测试集(1487 幅)。


4.1.3 SYSU-CD

翻译

SYSU-CD [29] 由中山大学发布,包含香港 2007-2014 年的土地覆盖变化数据,包含 20000 对甚高分辨率(VHR)遥感影像,每幅尺寸为 256×256 像素,空间分辨率为 0.5 米。该数据集涵盖建筑、城市道路、港口船舶和山地植被等多种复杂变化类型,存在显著的伪变化干扰。将影像块进一步划分为训练集(12000 幅)、验证集(4000 幅)和测试集(4000 幅)。

4.2 实验设置

翻译

所有实验基于 PyTorch 框架在配备 80GB 显存的 NVIDIA A100 GPU 上进行。所有模型采用相同的实验参数训练:批量大小为 32,训练轮数为 500 轮,使用验证集中 F1 指标最高的权重进行测试;采用 AdamW 优化器更新梯度,初始学习率为 0.00035;采用五种评估指标评价变化检测方法,包括精确率、召回率、F1 值、平均交并比(mIOU)和 Kappa 系数 [34]。

4.3 对比结果

4.3.1 对比方法

翻译

为全面评估所提 DDRL,采用多种先进变化检测方法进行定量和视觉分析,包括 FC-EF [38]、LUNet [39]、STANet [36]、IFNet [40]、BITNet [41]、HFANet [42]、DPCCNet [43]、WNet [44] 和 CSINet [45]。

4.3.2 定量分析

翻译

表 1 展示了 DDRL 与其他方法在 LEVIR-CD 数据集上的定量指标结果。结果表明,本文提出的具有类内聚合和类间分散约束机制的领域分布方法显著优于当前主流二元变化检测方法。具体而言,DDRL 在精确率、F1 值、mIOU 和 Kappa 系数上均有大幅提升,分别提高了 3.81%、1.37%、1.96% 和 1.59%。值得注意的是,CSINet 和 DPCCNet 表现出令人印象深刻的召回率,分别达到 93.61% 和 92.64%,这表明 CSINet 通过有效融合时空 – 光谱特征,增强了对建筑变化区域的敏感性。然而,CSINet 和 DPCCNet 在 F1 值和精确率等主要评估指标上落后于 DDRL,表明其对变化区域的误检概率较高。总体而言,LEVIR-CD 数据集上的定量指标证实,所提特征领域分布变化检测策略显著提升了变化检测性能。

表 2 展示了 DDRL 与其他方法在 WHU-CD 数据集上的定量指标结果。显然,DDRL 表现出与 LEVIR-CD 数据集上相似的优异性能,这是因为这些数据集的变化样本具有相似的特征特性,进一步验证了 DDRL 的卓越泛化能力。DDRL 的精确率达到 92.30%,比次优方法 IFNet 高出 5.79%;此外,DDRL 在 F1 值、mIOU 和 Kappa 系数上分别比当前最佳方法 —— 基于级联图卷积的 CSINet 高出 2.16%、2.32% 和 2.77%。值得注意的是,WNet 受益于多级差异特征图的渐进式融合,有效考虑了局部、全局和跨尺度融合信息,实现了 94.98% 的优异召回率;而本文方法的 F1 值达到 91.43%,显著高于 WNet 的 81.59%,表明本文方法在精确率和召回率指标之间取得了良好平衡,能够最准确地检测变化区域。

表 3 展示了 DDRL 与其他方法在 SYSU-CD 数据集上的定量指标结果。SYSU-CD 数据集上地物类型的复杂变化和成像差异带来了显著挑战,导致所有对比方法的定量指标均有所下降。尽管如此,DDRL 在 SYSU-CD 数据集上的精确率、F1 值、mIOU 和 Kappa 系数均取得最高值。与次优方法 WNet 相比,DDRL 的 F1 值和 mIOU 分别提高了 1.24% 和 1.6%。此外,观察到 FC-EF 的召回率最佳,但在其他指标上表现最差,表明这种极化结果无法体现全面的变化检测性能。因此,表 3 的结果表明,DDRL 中增强低层领域特征分布与整合高层领域对比特征相结合的方式,有效增强了主要变化区域及其边界的定位能力,同时增强了独立的跨域特征学习,能够有效区分相似的跨域特征,缓解了伪变化带来的挑战。

表 1 LEVIR-CD 数据集上的定量对比结果(最优值以粗体显示)

表 2 WHU-CD 数据集上的定量对比结果(最优值以粗体显示)

表 3 SYSU-CD 数据集上的定量对比结果(最优值以粗体显示)

4.3.3 视觉分析

翻译

图 5 展示了 DDRL 与其他方法在 LEVIR-CD 数据集的五个典型变化场景中的视觉结果,其中红色表示假阳性,绿色表示假阴性。对于图 5(a)和(b)所示的大型建筑变化类型,FC-EF、IFNet 和 BITNet 在主要变化区域存在显著漏检,且在变化区域边缘存在较多误检;相比之下,DDRL 仅出现小面积的红色和绿色区域,表明孪生跨窗口注意力机制有效提取了具有强表示能力的多尺度特征。在图 5(c)所示的稀疏不规则变化区域检测结果中,所有对比方法均未能有效区分跨类语义信息,导致显著的漏检区域;而 DDRL 利用 GAE 模块在低层特征领域聚合类内特征,实现了对低层区分性特征上下文信息的精准感知。此外,在图 5(d)和(e)所示的小型密集建筑变化案例中,DPCCNet、CSINet 和 DDRL 表现更优,在密集微小变化区域的边缘相对更完整。总体而言,LEVIR-CD 数据集上的视觉对比结果表明,DDRL 能够有效检测各类变化类型,且准确性高。

图 6 展示了 DDRL 与其他方法在 WHU-CD 数据集的五个典型变化场景中的视觉结果。在图 6(a)所示的大型仓库变化类型中,LUNet 将非变化区域的白色标记误认为变化区域,所有对比方法在左上角非变化区域均存在误检;图 6(b)-(e)中也存在类似的误检和漏检情况。HFANet、IFNet 和 BITNet 难以有效应对变化区域中高度相似的地表信息带来的挑战,导致检测结果中出现明显的红色和绿色像素区域;FC-EF、DPCCNet、WNet 和 CSINet 等方法在伪变化的影响下表现也较差。相比之下,DDRL 在变化主体的细节上更准确,边界信息更平滑,误检更少。这是因为 GAE 模块增强了低层领域分布,并结合 CFCL 模块重建高层融合特征的一致性,有效区分了高层和低层领域内的区分性特征,显著提升了 DDRL 检测伪变化区域的能力。

图 7 展示了 DDRL 与其他方法在 SYSU-CD 数据集的五个典型变化场景中的视觉结果。这些场景涵盖植被、道路、建筑和船舶等多种变化类型,有效验证了各变化检测方法的泛化能力。如图 7(a)所示,DDRL 准确识别了植被变化区域,误检较少;在图 7(b)和(c)中,变化区域与非变化区域的相似纹理给变化检测带来不确定性,且变化区域周围的大面积阴影导致检测结果出现不同程度的偏差,DDRL 通过孪生跨窗口注意力机制进行特征领域转换,减轻了无关背景对变化检测准确性的影响;在图 7(d)中,建筑拆除严重干扰了大多数方法的检测结果,HFANet 出现完全漏检和误检;此外,图 7(e)中的船舶变化类型对除 DPCCNet 和 DDRL 外的所有方法都构成了显著挑战,DPCCNet 虽能有效识别不变的码头,但对变化的船舶特征敏感性较低,而 DDRL 通过聚合类内特征和分散类间特征,确保了跨域特征的独立性,从而适应变化场景,减少了复杂环境带来的干扰。

图 5 LEVIR-CD 数据集五个典型场景的视觉结果

图 6 WHU-CD 数据集五个典型场景的视觉结果

图 7 SYSU-CD 数据集五个典型场景的视觉结果

4.4 可解释性分析

翻译

如图 8 所示,采用 t-SNE [46] 将特征降维到二维空间,以评估 CFCL 模块在领域分布中的区分性能,蓝色表示不变特征点,红色表示变化特征点。由于变化检测任务中样本不平衡显著(蓝色点数量远超过红色点),为便于观察,对红色点进行了放大处理。如图 8(a)所示,未使用 CFCL 模块时,两类特征点的分布较为分散且高度重叠,许多红色特征点混杂在蓝色特征点中;相比之下,如图 8(b)所示,添加 CFCL 模块后,不变特征点的聚类程度显著提高,所有不变特征点集中在左侧,尽管右侧仍存在部分重叠,但与图 8(a)相比有了大幅改善。因此,CFCL 模块在区分和聚类领域分布内的不同特征方面具有独特优势,有效增强了相似特征点的聚类效果,减少了不同特征点之间的混淆。

如图 9 所示,从三个数据集各随机选择 51 对双时相影像,将其中间层特征降维到二维空间,计算特征间的欧氏距离以捕捉其在特征空间中的相对位置,最后通过相关矩阵分析探究不同特征之间的关系。显然,各数据集的数据分布存在显著差异,但 DDRL 有效捕捉了领域分布内多尺度特征的关键区分信息,进行重建学习,增强了类内特征的相关性,降低了类间特征的相关性,从而有助于提高领域分布内特征挖掘的时空一致性,减少了伪变化导致的误检和漏检。

图 8 DDRL 的 t-SNE 可视化结果

图 9 DDRL 的相关矩阵结果

4.5 消融分析

4.5.1 所提模块的消融分析

翻译

为验证所提 GAE 和 CFCL 模块的有效性,在三个数据集上进行了消融分析,结果如表 4 所示。显然,仅使用 CSwin 作为孪生编码器提取多尺度变化特征时,结果最差,这可能是因为双时相影像中存在大量伪变化,阻碍了领域分布的准确识别;当融入 GAE 模块显著增强低层领域分布特征后,低层领域特征的分布更聚焦于真实变化区域,使得 WHU-CD 和 SYSU-CD 数据集上的召回率大幅提升,分别达到 90.00% 和 75.12%;添加 CFCL 模块后,三个数据集上的 Kappa 系数显著提高,与基线模型相比分别增加了 0.39%、0.66% 和 1.21%,表明 CFCL 模块有效对高层融合特征进行了重建学习,使领域分布内的类内特征更紧凑、类间特征更分散;最后,当整合 GAE 和 CFCL 模块构建 DDRL 框架时,变化检测结果令人印象深刻,在三个数据集上的 F1 值分别达到 92.41%、91.43% 和 82.38%,表明 DDRL 能够有效区分领域分布内的潜在伪变化。

如图 10 所示,选择三个不同场景说明 GAE 模块和 CFCL 模块在 DDRL 中的作用及其交互对检测结果的影响。显然,由于颜色差异和遮挡等因素,基线模型的变化检测结果相比其他三个模型存在更多漏检和误检;如图 10(a)和(b)所示,添加 GAE 模块后,特征表征得到一定程度的增强,检测结果中的绿色区域减少;此外,当与 CFCL 模块结合时,DDRL 实现了更高的变化检测准确性,表明对比学习策略有效利用了 GAE 模块提取的图结构特征,这种协同作用增强了不同类别和区域之间的区分度,显著减少了噪声和伪变化干扰。

图 10 消融分析的视觉结果

表 4 LEVIR-CD、WHU-CD 和 SYSU-CD 数据集上的消融分析定量结果(最优值以粗体显示)

4.5.2 参数敏感性分析

翻译

如表 5 所示,对Ldcl中的温度参数 τ 进行了敏感性分析。实验结果表明,较低的温度参数(τ=0.1)使模型对变化领域内的分布差异更敏感,这种高敏感性使 DDRL 能够通过突出难以区分的变化区域来检测细微变化;然而,随着温度升高,变化检测性能显著下降,尤其是在 SYSU-CD 数据集上,例如当 τ=1 时,F1 值降至 81.96%。这是因为较高的温度会模糊正负样本之间的对比,削弱模型区分关键特征的能力。因此,最终将温度参数 τ 设置为 0.1。

表 5 LEVIR-CD、WHU-CD 和 SYSU-CD 数据集上温度参数 τ 的敏感性分析(最优值以粗体显示)

4.5.3 混合损失函数的系数

翻译

为探究所提基于领域分布的变化检测框架的有效性,将混合损失函数中的自定义参数 λ 从 0 到 1 以 0.1 为间隔进行设置并开展实验,定量结果的雷达图如图 11 所示。可以清晰地观察到,在三个数据集上,当自定义参数 λ=0.2 时,DDRL 取得最佳的变化检测性能。我们推测,当 λ=0.2 时,\(L_{seg}()\)确保 DDRL 对变化区域的空间细节敏感,而\(L_{dcl}()\)鼓励对上下文和语义差异的更深层次理解。因此,这种协同作用使 DDRL 能够更准确地捕捉和表示变化区域的特征,从而提升整体变化检测性能。在其他参数设置下,结果相对稳定,表明 DDRL 在各种条件下表现出合理的鲁棒性。因此,最终将自定义参数 λ 设置为 0.2,这不仅优化了性能,还确保了 DDRL 在广泛场景中的稳定性和一致性。

图 11 定量结果的雷达图

4.6 效率分析

翻译

如表 6 所示,计算了不同方法的两个指标:模型参数数量(Params)和浮点运算次数(FLOPs),分别用于衡量计算效率。FC-EF、LUNet 和 BITNet 由于结构相对简单,参数数量较少,但这些方法的特征提取能力有限,在 F1 指标上表现也相对较差。值得注意的是,所提 DDRL 在参数数量上显著低于 HFANet、WNet 和 CSINet 等主流方法,表明 DDRL 能够在保持相对轻量化网络结构的同时,实现令人瞩目的变化检测性能。在浮点运算次数方面,IFNet、BITNet、HFANet 和 CSINet 等方法也远高于 DDRL。综合效率对比分析和实验结果表明,基于 GAE 和 CFCL 模块的 DDRL 不仅能够有效克服二元变化检测(BCD)中伪变化的影响,还仅需相对较少的计算资源。

表 6 不同方法的效率对比结果

5 结论

翻译

通过分析基于分割和基于度量的变化检测方法的优缺点,本文提出一种用于精准二元变化检测的 DDRL 框架,旨在缓解双时相影像中的伪变化干扰问题。具体而言,采用孪生跨窗口自注意力模块提取多尺度特征,实现原始空间的领域分布转换;随后利用 GAE 模块显著增强低层领域分布特征,聚焦变化区域,减少无效噪声干扰;此外,设计 CFCL 模块对高层融合特征进行重建学习,减小领域分布中不变特征间的度量距离,同时增大变化特征间的距离。深度对比学习损失作为关键组件,约束 DDRL 在孪生编码器中优化特征表示学习。通过混合损失的迭代优化,变化检测结果逐渐与实际变化标签收敛,从而提升变化检测性能。实验结果表明,所提 DDRL 在三个公开数据集上取得了令人鼓舞的视觉和定量结果,证实 DDRL 能够有效融合基于分割和基于度量方法的优势。尽管 DDRL 在缓解伪变化干扰方面表现良好,但在极端条件下可能仍对微小变化敏感,需要进一步优化和调整以增强其鲁棒性和适用性。我们希望本研究能为未来变化检测的隐式或显式优化研究奠定基础。未来工作将致力于通过融合多模态数据(如结合多种模态的影像和文本信息)增强 DDRL 框架的鲁棒性,以捕捉更广泛的特征,帮助降低模型在极端条件下对微小变化的敏感性,从而提升整体变化检测性能和泛化能力。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇