Satellite Image Utilization for Dehazing with Swin Transformer-Hybrid U-Net and Watershed loss
25年8月发布在arXiv上的预出版论文,基于Swin Transformer-混合U-Net与分水岭损失的卫星图像去雾应用,对遥感图像进行一个去雾的操作。
0 摘要
翻译
卫星图像在多个领域发挥着关键作用,但大气干扰和雾霾会显著降低图像清晰度,进而降低信息提取的准确性。为应对这些挑战,本文提出一种融合 Swin Transformer 与 U-Net 的混合去雾框架,以平衡全局上下文学习与局部细节恢复,该框架被命名为 SUFERNOBWA。所提网络在编码器和解码器中均采用基于 Swin Transformer 的残差密集块(SwinRRDB),以有效提取特征。该模块能够实现全局上下文信息与精细空间结构的联合学习,这对于卫星图像的结构保留至关重要。此外,本文还提出一种结合 L2 损失、引导损失和新型分水岭损失的复合损失函数,该函数可增强结构边界保留能力并确保像素级精度。该架构能够在不同大气条件下实现稳健的去雾效果,同时保证恢复后图像的结构一致性。实验结果表明,所提方法在 RICE 和 SateHaze1K 数据集上的性能均优于当前最先进的模型。具体而言,在 RICE 数据集上,该方法实现了 33.24 dB 的峰值信噪比(PSNR)和 0.967 的结构相似性指数(SSIM),相较于现有方法有显著提升。本研究为缓解卫星图像中的大气干扰提供了有效解决方案,并凸显了其在各类遥感应用中的潜在适用性。
(动机)1、遥感图像常受大气干扰和雾霾显著降低图像清晰度,从而降低遥感图像中类别特征的有效性,从而降低模型信息提取的准确性。
2、本文提出一种融合Swin Transformer与U-Net的混合去雾框架(SUFERNBWA),以平衡全局上下文学习与局部细节恢复,以提取有效特征。
3、提出一种损失函数:结合了L2损失、引导损失和新型分水岭损失的复合损失函数。
4、实验内容:使用数据集RICE 和 SateHaze1K,结果表明在这两个数据集上的性能优于当前最先进的模型,可以实现在不同大气条件下实现文件的去雾效果。
1 引言
翻译
卫星图像已被证实在众多工程应用中发挥着关键作用,包括环境监测、气候变化分析、农业管理、国家安全、地图绘制以及灾害响应等 [1-4]。随着人工智能(AI)和高分辨率传感器技术的最新发展,自动化卫星图像分析系统日益精密,为各类行业和研究领域做出了重要贡献 [5-8]。然而,大气干扰是一项重大挑战,它会降低卫星图像的清晰度,进而降低所提取信息的准确性 [9-11]。在大气干扰的主要来源中,云层和雾 / 霾的影响尤为显著。在低地球轨道(LEO)卫星图像中,大气中的水汽和气溶胶会导致光散射,造成图像对比度降低和局部颜色失真 [12-13]。此外,若未能充分消除大气干扰,可能会丢失关键的地表信息,这对目标检测和变化检测等应用会产生不利影响。
卫星图像的应用已遍及多个学科领域,其中环境监测是一项核心应用。然而,若卫星图像因大气干扰而质量下降,此类分析的准确性可能会受损,进而可能导致错误的解读。因此,研发能够有效消除大气干扰 [14] 并恢复清晰图像的图像去雾技术,对于提高环境监测的可靠性至关重要 [15]。此外,灾害响应与管理工作高度依赖卫星图像 [16]。在洪水、地震和飓风等灾害场景中,快速评估灾情并制定恢复计划至关重要。卫星图像是进行大范围灾害监测的有力工具,但云层和雾霾常常会遮挡关键区域,难以清晰观察受灾地区情况。为解决这一问题,必须应用图像去雾技术来提升图像质量,确保灾情评估的准确性。
卫星图像在农业和资源管理领域也得到了广泛应用 [17-18]。它在监测作物健康状况、预测产量以及检测干旱或病虫害等方面发挥着关键作用。然而,当大气干扰导致卫星图像失真时,农业评估的可靠性会大幅下降,进而可能对农业决策过程产生不利影响。因此,研发稳健的去雾技术对于确保卫星图像的准确解读至关重要。
卫星图像中的大气退化主要表现为雾霾和云层两种形式,二者都是导致图像质量下降的主要原因。雾霾是由大气中的微粒(如气溶胶或水汽)对光线的散射造成的,通常表现为一层稀薄且均匀的覆盖层,会降低整个场景的图像对比度和色彩保真度。与之不同的是,云层是密集且空间分布不均匀的遮挡物,会完全掩盖图像的结构和纹理信息。此外,云层边界通常具有半透明特性,还会产生阴影,进一步增加了图像恢复的难度。尽管雾霾和云层在物理特性上存在差异,但它们都属于大气退化现象,因此可在统一的去雾框架内进行处理。不过,雾霾去除需要具备全局对比度恢复能力,而云层去除则需要通过局部非线性重建来有效恢复被遮挡区域。
鉴于卫星图像在各类行业和研究领域的广泛应用,卫星图像去雾对于确保信息的准确提取与分析至关重要 [19-21]。然而,现有的图像恢复技术存在诸多局限性,尤其是缺乏专门针对卫星图像设计的稳健去雾模型。因此,迫切需要建立一种新的方法,能够在有效消除大气干扰的同时,保留图像的关键特征。
现有的卫星图像去雾研究大致可分为两类:基于物理的模型和基于深度学习的模型 [22-41]。基于物理的模型试图通过大气散射模型来消除大气干扰,该模型通过估计大气光和透射率图来重建原始图像。这些方法以明确的物理原理为基础,在大气条件相对稳定的特定环境中可能具有一定效果。但它们存在明显的局限性,难以应用于大规模场景。这类模型面临的一个关键挑战是,其在不同大气条件下的泛化能力较差,导致性能不稳定且往往难以达到理想效果。此外,这类模型通常需要深度图或多光谱数据等辅助信息,而这些信息并非总能获取,这也成为其一大短板。而且,准确模拟现实世界中大气效应的过程较为复杂,往往会导致去雾不彻底或不准确,尤其是在大气特性不断变化的高度动态环境中。
与之相反,基于深度学习的模型利用卷积神经网络(CNN)和 Transformer 架构,从大规模数据集中学习去雾模式。这些模型通过自动提取复杂特征并适应不同的大气条件,展现出了出色的性能。但它们同样存在一些局限性。其中一个关键挑战是,模型性能在很大程度上依赖于训练集的质量,且容易受到领域偏差的影响。这可能导致模型在某些数据集上表现良好,但在未见过的场景中却难以适用。此外,许多基于深度学习的模型会引入空间失真,影响图像中目标的结构信息。而且,这些模型通常会采用平滑技术,导致精细细节和重要纹理信息丢失,这对于高分辨率卫星图像而言尤为棘手,因为此类图像中的细粒度细节对分析工作至关重要。
卫星图像的独特特性使得现有去雾技术难以直接应用。与地面拍摄图像不同,卫星图像覆盖的地理区域广阔,且常常处于变化多样的大气条件下。因此,原本为自然场景图像设计的传统去雾模型,在应用于卫星数据时,往往会导致空间变形和颜色分布改变。显然,需要一种专门针对卫星图像设计的稳健去雾框架,以在保留关键场景信息的同时实现高质量的图像恢复。
为应对卫星图像中大气干扰带来的挑战,本研究提出了 SUFERNOBWA 网络(基于 Swin Transformer 混合 U-Net 与分水岭损失函数的卫星图像去雾网络)。该研究提出一种融合 Swin Transformer 与 U-Net 框架的混合网络架构。Swin Transformer 采用基于移位窗口的多头自注意力机制,能够高效地对图像中的长距离依赖关系和全局上下文特征进行建模。这种架构设计对于卫星图像而言具有显著优势,因为卫星图像中的各类结构元素分布在广阔的空间范围内,且雾霾影响也覆盖大面积区域。提取分层全局特征的能力,能够确保大范围区域内的语义一致性和有效去雾效果。然而,基于 Transformer 的模型在保留局部细粒度细节(如边界和纹理)方面通常效果欠佳。为解决这一局限性,将 Swin Transformer 模块嵌入到采用编解码器设计的 U-Net 架构中。U-Net 能够进行多尺度特征提取,并利用跳跃连接将高分辨率空间信息从编码器直接传递到解码器。这种机制在保留局部结构完整性(包括目标边缘、纹理和形状)方面效果显著,而这些对于高分辨率卫星图像至关重要。
因此,所提混合架构同时兼具了 Swin Transformer 的全局特征建模能力和 U-Net 的局部细节保留优势,有效应对了卫星图像去雾的独特挑战,即大范围空间内的全局雾霾建模和局部结构的精准重建。其核心目标是消除大气干扰、保留卫星图像的结构完整性,并优化图像恢复质量。本研究的主要贡献如下:
1、遥感图像包含信息内容较多,在众多工程应用中发挥重要作用(包括环境监测、气候变化分析、农业管理、国家安全、地图绘制以及灾害响应等)。
2、在大气干扰因素中,该因素导致遥感图像质量下降,其中云层与雾霾对遥感图像中类别特征的影响尤为显著。
3、现有卫星图像去雾研究分为两类,分别为基于物理模型和基于深度学习模型。
4、与地面拍摄图像不同,卫星图像覆盖的地理区域广阔,且常常处于变化多样的大气条件下,现有去雾技术无法直接应用于其中。
5、本文提出一种基于Swin Transformer融合U-Net与分水岭损失函数的卫星图像去雾网络—–SUFERNOBWA网络。
6、基于Transformer的模型在保留局部细粒度细节方面通常效果欠佳,本文将Swin Transformer模型嵌入到采用编解码器设计的U-Net架构中。Swin Transformer用来提取分层全局特征的能力,确保大范围区域内的语义一致性和有效去雾效果,U-Net进行多尺度特征提取,并利用跳跃连接将高分辨空间信息从编码器直接传递到解码器。
基于物理模型去雾
基于物理的模型试图通过大气散射模型来消除大气干扰,该模型通过估计大气光和透射率图来重建原始图像。这些方法以明确的物理原理为基础,在大气条件相对稳定的特定环境中可能具有一定效果。但它们存在明显的局限性,难以应用于大规模场景。这类模型面临的一个关键挑战是,其在不同大气条件下的泛化能力较差,导致性能不稳定且往往难以达到理想效果。此外,这类模型通常需要深度图或多光谱数据等辅助信息,而这些信息并非总能获取,这也成为其一大短板。而且,准确模拟现实世界中大气效应的过程较为复杂,往往会导致去雾不彻底或不准确,尤其是在大气特性不断变化的高度动态环境中。
基于物理模型的遥感图像去雾方法理论基础都是大气散射模型,其数学表达式通常为:
I(x)=J(x)*t(x)+A*(1-t(x))
其中I(x)为观测到的有误图像(传感器接收到的图像
j(x)为期望恢复的无雾场景辐射(清晰图片)
t(x)为透射率图,其表示光线通过大气介质后到达相机的比例,它与场景深度和大气散射系数有关,t(x)越接近0雾浓度越高
A为大气光值,代表无穷远处的大气光强度,通常被假设为一个全局常数向量
去雾的目标就是从已知的I(x)中,估计出A和t(x),从而求解出清晰的J(x),具体不同的方法主要区别在与如何估计A和t(x)
常见的方法有分类有:
基于先验信息的方法:这类方法通过分析大量清晰图像的统计规律,总结出一些先验知识来约束解空间,从而估计投射率。
基于偏振信息的方法:该方法利用雾的散射效果会使光产生的特性,通过从不同偏振角度拍摄两幅或多幅图像,可以分离出直接衰减项和大气光项,从而更加精确地估计A和t(x),这种方法物理依据明确,但需要特殊的偏振相机或多次拍摄,在遥感应用中受限。
基于多光谱/高光谱数据的方法:遥感的一大优势就是常常拥有多光谱或高光谱数据。不同波长的光在大气中的散射特性不同。其原理:利用多个波段的信息,可以更精确地建模大气散射过程,例如通过比较受雾影响严重的短波波段和受影响较小的长波波段之间的差异,来反演透射率图和气溶胶信息。
如正文中提到,其局限性有:
模型简化与实际情况不符,模型通常假设全局大气光是均匀的、透射率只与深度呈指数衰减关系等等条件,这与实际情况的条件不符,导致假设失效、去雾后的图片出现光晕或颜色失真
对辅助信息的依赖性强,依赖于更加准确的大气参数、场景深度信息、多光谱数据
泛化能力差,基于先验的方法在特定地理与大气条下效果很好,但当应用到不同地区、不同时期、不同地理环境下,缺乏自适应能力,难以用于自动化、大规模处理。
基于深度学习模型去雾
基于深度学习的模型利用卷积神经网络(CNN)和 Transformer 架构,从大规模数据集中学习去雾模式。这些模型通过自动提取复杂特征并适应不同的大气条件,展现出了出色的性能。但它们同样存在一些局限性。其中一个关键挑战是,模型性能在很大程度上依赖于训练集的质量,且容易受到领域偏差的影响。这可能导致模型在某些数据集上表现良好,但在未见过的场景中却难以适用。此外,许多基于深度学习的模型会引入空间失真,影响图像中目标的结构信息。而且,这些模型通常会采用平滑技术,导致精细细节和重要纹理信息丢失,这对于高分辨率卫星图像而言尤为棘手,因为此类图像中的细粒度细节对分析工作至关重要。
深度学习模型不显示地估计大气光A和透射率t(x),而是将其作为一个图像到图像的翻译问题。模型通过数百万的参数,学习雾霾在图像中的复杂分布模型以及如何将其移除。
其基本流程为:有雾图像I(x)–>深度学习模型–>清晰图像
其相对于基于物理模型的遥感图像去雾方法具有的优势:
强大的复杂特征学习能力:无需手工设计先验,能够从数据中自动学习雾霾的全局和局部特征,包括空间变化的雾霾。
端到端简化流程:避免了繁琐的中间步骤(如透射率细化、大气光估计等),简化了流程,易于实现和应用。
处理速度:训练完成后的模型,前向推理即对图像进行去雾操作的速度非常快,适合大规模业务化处理。
无需辅助信息:绝大多数深度学习去雾模型仅需要RGB图像本身,无需深度图或多光谱数据,使其应用范围更广。
优异的泛化能力:假设训练数据充足且多样的情况下,那么它对各种场景的泛化能力通常远强于基于固定先验的物理模型。
存在的不足/局限性:
对训练数据的质量、数量、包含场景等具有强依赖性
纯数据驱动的模型可能学习到一种“捷径”,即生成视觉上清晰但地物光谱信息已被扭曲的图像,这对于需要定量分析的遥感应用(如植被指数计算、水质检测)是致命的。
模型的可解释性差,通现有大模型一样,深度学习像一个“黑箱”,我们很难理解它内部是如何做出决策的,当去雾失败时,调试和定位问题比物理模型更加困难
计算资源高,训练一个高性能的深度学习模型需要强大的GPU和大量的时间。
1.1 融合Swin Transformer与U-Net的新型去雾网络
翻译
与传统的主要关注局部信息的基于 CNN 的网络不同,本研究将用于全局特征提取的 Swin Transformer 与用于多尺度特征学习的 U-Net 相结合,构建了一种适用于卫星图像的高效去雾架构。
1.2 基于分水岭算法的新型损失函数
翻译
将传统用于目标分割的分水岭算法融入损失函数中,旨在在有效去除大气干扰的同时,保留目标结构。
1.3 结合引导损失函数与分水岭损失的优化方法
翻译
所提方法融入引导损失,以保留边界细节并增强去雾图像的结构一致性。
本文其余部分的结构安排如下:第 2 章回顾现有的去雾技术和卫星图像恢复相关研究;第 3 章介绍所提的 SUFERNOBWA 模型及损失函数设计;第 4 章呈现实验结果和性能评估,并与现有方法的结果进行对比;最后,第 5 章总结本文的研究成果,对结果进行讨论,并概述未来的研究方向。
2 相关工作
翻译
图像去雾领域经过了广泛的研究与发展,已成为计算机视觉和图像处理领域的重要方向,这是因为在大气退化条件下,图像去雾对于提升视觉清晰度和信息提取能力具有重要意义。Huang B 等人 [22] 提出了一种利用合成孔径雷达(SAR)图像和红绿蓝(RGB)图像的去雾方法。通过应用条件生成对抗网络和扩张残差块,他们有效融合了 RGB 和 SAR 信息,实现了更高效的去雾效果。该研究通过利用多传感器数据,在恢复有雾遥感图像方面展现出优于现有模型的性能,能够实现更准确的图像恢复。与本研究的主要区别在于深度学习架构的采用,本研究的架构旨在仅利用 RGB 图像就能有效学习全局上下文信息。
Chen X 等人 [23] 提出了一种混合高分辨率学习网络,用于恢复受大气干扰影响的卫星图像中的精细空间细节。该模型通过高分辨率分支确保空间精确的输出,同时通过多分辨率卷积流和并行跨尺度融合模块有效整合多分辨率信息。此外,该模型还应用通道特征细化块,动态调整各通道的特征,以提升去雾性能。该方法与所提方法的共性在于,均利用多尺度信息融合来消除大气干扰。但二者的关键区别在于实现方式:H2RLNet 依赖高分辨率学习和多分辨率卷积,而 SUFERNOBWA 则采用 U-Net 结构,旨在有效捕捉全局上下文信息。
Song T 等人提出了基于 Transformer 的 RSDformer [24] 模型,用于遥感图像去雾。RSDformer 整合了三个关键模块,以有效学习全局和局部依赖关系。该模型采用细节补偿转置注意力机制,跨通道提取全局和局部特征,从而能够更有效地处理分布不均匀的雾霾。与所提的 SUFERNOBWA 模型相比,两种方法均利用了 Transformer 架构,这体现了它们在捕捉长距离依赖关系方面的共性。但不同之处在于,RSDformer 依赖基于 Transformer 的注意力机制直接学习长距离依赖关系,而 SUFERNOBWA 则将 Swin Transformer 融入混合 U-Net 框架中。
Yang L 等人提出了 DehFormer [25],这是一种基于 Transformer 的模型,旨在提升高分辨率卫星图像的去雾性能。DehFormer 整合了三个关键模块:用于多分辨率特征融合的多尺度特征聚合网络、用于高效特征选择的门控可分离卷积前馈网络,以及通过减少矩阵乘法并利用频域处理来优化 Transformer 计算的多可分离卷积头转置注意力模块。这些设计改进使得 DehFormer 的性能优于当前最先进的去雾方法。与 SUFERNOBWA 相比,两种模型均采用基于 Transformer 的架构,且都旨在捕捉全局和局部特征以提升恢复效果。但 SUFERNOBWA 引入了基于分水岭的损失函数来增强边界保留能力,而 DehFormer 则着重于多分辨率特征融合和频域自适应处理,以提升去雾性能。
Hwang H 等人 [26] 利用循环生成对抗网络(CycleGAN)实现合成孔径雷达(SAR)图像与光学图像之间的转换。他们的方法通过同时训练两个生成器网络和两个判别器网络,实现了 SAR 图像与光学图像之间的相互转换。与 SUFERNOBWA 相比,该方法专注于 SAR 图像与光学图像的转换,通过将结构相似性指数(SSIM)和感知损失融入损失函数中,强调风格迁移和结构信息保留。与之不同的是,SUFERNOBWA 采用基于 Swin Transformer 的混合 U-Net 结构,用于消除单幅光学图像中的大气干扰,同时融入分水岭损失以保留边界信息,这是两种方法的关键区别。
Singh P 等人提出了 Cloud-GAN [27],这是一种用于遥感(RS)图像去云的方法。Cloud-GAN 通过学习有云图像与无云图像之间的映射关系来实现去云,它利用对抗损失确保生成的去云图像与真实无云图像的分布高度吻合。此外,该方法还融入循环一致性损失,以确保生成的无云图像与原始有云图像保持相同的场景。与 SUFERNOBWA 相比,Cloud-GAN 是一种基于生成对抗网络(GAN)的模型,主要专注于去云任务,而 SUFERNOBWA 则旨在消除大气干扰。此外,Cloud-GAN 利用循环一致性损失来维持场景一致性,而 SUFERNOBWA 则整合分水岭损失以增强边界保留能力,这也是两种方法的关键区别。
Cai B 等人提出了 DehazeNet [28],这是一种基于卷积神经网络(CNN)的单图像去雾方法。DehazeNet 从输入的有雾图像中估计介质透射率图,并将其应用于大气散射模型以恢复清晰图像。该模型利用 Maxout 单元进行特征提取,并引入一种名为双边 ReLU 的新型激活函数,以提升去雾性能。DehazeNet 和 SUFERNOBWA 均采用基于 CNN 的方法进行去雾。但不同之处在于,DehazeNet 仅依赖基于 CNN 的架构来学习物理约束,而 SUFERNOBWA 则整合了 CNN 和 Transformer 两种结构,以实现更有效的特征学习。
Li S 等人设计了 M2SCN [29],通过整合多模型联合估计模块和自校正模块来提升去雾性能。多模型联合估计(M2JE)模块将去雾过程构建为多模型集成问题,以提高模型的泛化能力。同时,自校正(SC)模块逐步修正网络提取的中间特征中的误差,使其能够有效处理非均匀雾霾图像。与所提的 SUFERNOBWA 相比,两种模型均采用端到端学习框架进行遥感图像去雾,旨在更有效地恢复有雾图像。但 M2SCN 着重于提高泛化性能和修正中间特征,以应对非均匀雾霾退化问题。与之相反,SUFERNOBWA 应用分水岭损失来保留边缘信息,确保更准确的去雾效果,这是其与 M2SCN 的区别所在。
Vishwakarma S 等人 [30] 提出了一种基于机器学习的方法,用于有效消除卫星图像中的大气干扰。首先,在预处理阶段,采用直方图均衡化和颜色调整等技术来初步提升图像质量。接着,去雾网络利用卷积神经网络(CNN)、残差块、注意力机制和生成对抗网络(GAN)来消除大气干扰并恢复图像质量。最后,在后处理阶段,通过细节增强、降噪和颜色校正等操作,生成自然且清晰的图像结果。与 SUFERNOBWA 相比,该研究侧重于去雾处理,并通过额外的后处理步骤进一步提升最终图像质量。
HALP [31] 提出了一种新型去雾算法,用于解决雾霾天气下遥感图像质量下降的问题。该方法引入了基于异质大气光估计和侧窗滤波的去雾技术。与 SUFERNOBWA 相比,HALP 采用基于物理的去雾方法,通过估计局部区域的非均匀大气光并改进滤波过程来实现去雾。与之不同的是,SUFERNOBWA 旨在通过基于深度学习的方法和损失函数的整合来提升去雾性能。
Guo Y 等人提出了 SCANet [32],以有效应对非均匀雾霾问题。该网络由注意力生成网络和场景重建网络构成,重点在于增强受雾霾严重影响的区域。与 SUFERNOBWA 相比,两种模型具有共同的目标,如去雾、恢复精细细节以及增强被雾霾遮挡的区域。此外,两种模型均采用混合架构,整合了局部和全局特征提取方法。
Wang M 等人提出了 IDF-CR [33],这是一种新型去云方法,它利用扩散模型强大的生成能力。IDF-CR 采用两阶段方法,结合像素空间处理和潜在空间中的迭代噪声扩散,逐步提升恢复性能。与所提的 SUFERNOBWA 相比,两种模型的共性在于均利用先进的生成模型来提升图像恢复性能。但不同之处在于,IDF-CR 利用扩散模型迭代去除云层,而 SUFERNOBWA 则通过基于重建的方法来消除雾霾。
SpAGAN [34] 是一种利用基于生成对抗网络(GAN)的空间注意力机制来去除遥感图像中云层的模型。该模型模仿人类视觉注意力机制来识别云层区域,并通过从局部到全局的视角关注信息,从而提升恢复性能。与 SUFERNOBWA 类似,它采用基于神经网络的恢复方法,并对云层区域进行选择性处理,以提升图像质量。但不同之处在于,SpAGAN 以带有空间注意力机制的 GAN 训练为核心,而所提方法则通过采用多种损失函数和专门的网络块来增强结构信息和边缘保留能力,从而体现出自身的特色。
DehazeFormer [35] 提出了一种利用 Swin Transformer 的新型方法。但该研究发现,Swin Transformer 的原始设计并不完全适用于图像去雾任务,因此通过修改归一化方案、激活函数和其他组件来提升其性能。SUFERNOBWA 和 DehazeFormer 的共同目标是利用基于 Swin Transformer 的架构来提升去雾性能。但不同之处在于,DehazeFormer 着重于解决 Swin Transformer 的结构局限性,而所提方法则优先考虑保留建筑物和道路等结构信息。
Lihe 等人 [36] 提出了 PhDnet,这是一种用于遥感图像的物理感知去雾网络,它整合了基于大气散射模型的雾霾提取单元。为增强多尺度特征融合,该网络采用了多尺度门控卷积(MSGC)。PhDnet 和 SUFERNOBWA 均利用基于卷积神经网络(CNN)的架构进行去雾,但 PhDnet 通过融入领域知识强调物理可解释性,而 SUFERNOBWA 则专注于利用混合 Swin Transformer 和 U-Net 框架来学习全局上下文表示。
Yang 等人 [37] 提出了双视图知识迁移(DVKT)框架,该框架利用师生学习范式,将知识从自然图像去雾模型迁移到遥感场景中。通过层内和层间知识迁移模块,该框架能够在轻量级模型中实现有效的特征学习。与 SUFERNOBWA 不同,SUFERNOBWA 通过专门的损失函数优先考虑结构完整性和边界感知恢复,而 DVKT 则通过知识蒸馏专注于模型压缩和效率提升。尽管两种模型均利用多尺度特征处理,但它们的设计目标存在显著差异。
Li C 等人 [38] 提出了一种适用于户外和遥感图像的高效去雾方法,该方法利用高斯加权图像融合来提高透射率估计的准确性,并采用基于非锐化掩模的方法来校正颜色失真。与本研究类似,该方法的目标也是提高透射率准确性同时保留颜色一致性;但该方法主要依赖传统的恢复和增强技术,这使其在特征表示和基于学习的恢复能力方面受到限制,而这些能力是深度学习方法所固有的。
在 UAVD-Net [39] 中,研究人员提出了一种专门用于去除无人机(UAV)遥感图像中空间非均匀雾霾的去雾框架,该框架结合了基于 Transformer 的全局信息捕捉模块和局部信息增强模块,实现全局 – 局部特征协同去雾。我们的方法同样利用基于 Swin Transformer 的全局信息以及局部恢复能力,但不同之处在于,我们采用 SwinRRDB 来实现更轻量化且高效的结构,并且额外融入了针对卫星图像特征设计的基于分水岭的结构保留损失。
此外,UDAVM-Net [40] 研究引入了 U 型双注意力视觉曼巴网络(U-shaped Dual Attention Vision Mamba Network),在 U-Net 结构中应用双注意力机制和残差视觉曼巴块(RVMBs),用于卫星遥感单图像去雾。该研究利用曼巴架构作为 Transformer 的替代方案,凭借其全局有效感受野(ERF)能力,并采用大气辐射传输模型和云层失真模型构建数据集。尽管该研究与我们的工作类似,均采用基于 U-Net 的多尺度结构来利用全局和局部特征,但我们的方法具有自身特色:在 Swin Transformer 中采用基于窗口的注意力机制以提高计算效率,并融入了结构保留损失设计。
ICL-Net [14] 研究利用逆认知学习网络(Inverse Cognitive Learning Network),通过多尺度特征提取和全局 – 局部信息自适应学习来实现去雾。该网络的特点是整合了模拟人类认知的模块和并行雾霾约束模块,在云层和雾霾环境下实现了稳健的去雾性能。尽管该网络与我们的网络类似,也采用多尺度、全局 – 局部协同学习结构,但我们的方法通过整合 SwinRRDB 和基于分水岭的结构保留损失函数,着重于结构边界恢复,从而体现出差异性。
3 所提方法
3.1 网络架构




1:

图 1. SUFERNOBWA 图像去雾网络的整体架构
2、U-Net模型在学习局部特征方面效率较高,但在处理大范围大气干扰时存在局限性;相反基于Transformer的模型能够有效学习全局上下文信息,但面临着计算复杂度增加的问题。本文的编码器与解码器中采用基于Swin Transformer的残差密集块(SwinRRDB),在瓶颈层中使用瓶颈块(Bottleneck Block)进行优化,不进行Swin Transformer保证计算效率。
3、SUFERNOBWA网络流程
4、瓶颈层是SUFERNOBWA网络中作为关键的阶段,负责在网络最深层学习全局上下文信息,相当于在瓶颈层使用基于Swin Transformer的自注意力,本问使用深度可分离卷积和多层感知机构成的轻量化瓶颈块,降低了瓶颈层的计算负担。深度可分离卷积会对每个通道的空间信息进行单独处理,这对于保留局部结构细化非常有效。MLP模块通过对通道间的相互作用进行建模,促进高维特征的细化,从而间接增强全局上下文表示。
SUFERNOBWA网络流程
多尺度特征提取阶段输入图像经过input为256×256×3的RGB遥感图像,首先经过一系列的“卷积操作+残差密集块”模块进行下采样,逐步提取不同尺度的特征F1、F2、F3、F4;(卷积操作用于初步特征映射,调整通道数与分辨率,残差密集块是增强特征的非线性表达和长程依赖建模关系)
瓶颈特征压缩与处理阶段编码器最终提取的特征进入Bottleneck Block瓶颈块,实现特征的压缩与精细化处理:其内部为对“正则化–>深度卷积–>正则化–>多层感知机”结构重复3次,通过深度卷积和多层感知机完成特征的非线性变换与通道交互,随后经卷积层进一步调整特征。(MLP起到对特征进行非线性映射、增强特征表达能力的作用,通过全连接层的维度变换和激活函数,让模型能够学习到更复杂的特征模式。)
上采样与多尺度特征融合阶段经过瓶颈层处理后的特征通过转置卷积(T-Conv)上采样,并与前期提取的多尺度特征F4、F3、F2、F1依次进行通道融合(Fusion),逐步恢复图像分辨率(跳跃连接…)。每次融合前,特征会先经过“卷积+残差密集块”模块重新提取细节,部分环节引入PReLU非线性激活函数增强其特征的非线性,最终通过“残差密集块–>非线性激活函数–>残差密集块–>转置卷积–>双曲正切函数(Tanh)”流程,输出重建图像
3.1.4 SwinRRDB




SwinRRDB
SwinRRDB模块流程
该模块由三部分组成,对整部分执行三次为整个模块的执行
经过第一部分,先经过层归一化后进行多头注意力操作,捕捉全局语义依赖建模长距离特征关联,后经过深度可分离卷积进行特征细化,输出特征进行自适应平均池化操作,对特征下采样聚焦全局信息,后conv+relu+conv通过卷积和非线性激活函数提取抽象特征,sigmod强化重要特征输出特征图,再次进行归一化与多层感知机非线性转换,增强表达能力,再将初次输入模块的特征与此时得到的特征进行残差融合,依次执行3次最终的特征作为SwinRRDB输出的结果。
Swin风格的特征提取层归一化+多头注意力+深度可分离卷积,其中层归一化(Norm)对输入进行归一化,稳定训练并加速收敛,多头注意力(MHSA)通过自注意力机制捕捉全局语义依赖,建模长距离特征关联,深度可分离卷积(DConv)在注意力之后引入卷积操作,捕捉局部细节特征,融合全局注意力与局部注意力。
注意力引导的特征增强自适应平均池化(AAP)+Conv+ReLU+Conv+Sigmod,其中自适应平均池化:对特征进行下采样,压缩空间维度,聚焦全局信息,Conv+ReLU+Conv通过卷积和激活函数提取抽象特征,sigmod,输出特征图,强化重要特征
非线性变换与残差连接Norm+MLP+残差加和,Norm再次归一化,为后续变换做准备,MLP对特征进行非线性变换,增强表达能力,残差加和将该模块的输出与模块最初的输入进行残差连接,保留原始信息,缓解梯度消失问题。
3.2 新型损失函数



3.2.1 高斯平滑
翻译
分水岭算法是一种典型的图像分割方法,它将像素强度视为地形高度,根据局部最小值对区域进行分割。尽管该算法通常在梯度图上运行,但卫星图像和结构复杂的图像往往包含过多的精细边缘,这会导致过度分割,并对噪声极为敏感。为解决这些问题,在分割前应用高斯平滑。该过程会衰减高频分量,抑制无关的精细边缘,同时保留重要的结构边界,从而使分水岭分割能够更稳定、更稳健地进行。
3.2.2 局部最小值检测与标记分配
翻译
从平滑后的图像中,通过基于邻域的搜索检测局部强度最小值。为每个检测到的最小值分配一个唯一的整数标签,作为分水岭传播的种子标记。这确保了分割从结构上有意义且空间上稳定的区域开始,为后续的标签扩张奠定可靠基础。
3.2.3 四向标签传播
翻译
基于初始化的标记,采用四向标签传播(上、下、左、右)进行区域生长。在每次迭代中,将与源标签区域强度差异最小的相邻未标记像素分配相同的标签。这种迭代扩张过程持续进行,直到所有像素都被标记,从而实现平滑的区域边界,同时有效抑制传播噪声。
3.2.4 标签图归一化


4 实验与结果分析
4.1 数据集
翻译
本文采用 RICE [44] 和 SateHaze1k [22] 两个数据集对所提方法进行评估。RICE 是一个用于去云的遥感图像数据集,包含 500 对图像,每对图像由一幅有云图像和一幅无云图像组成,分辨率均为 512×512 像素。在本研究中,使用 390 对图像进行训练,110 对图像进行测试。SateHaze1k 数据集包含有雾图像、对应的清晰图像以及合成孔径雷达(SAR)图像,均以成对形式提供,分辨率为 512×512 像素。该数据集包含三种雾霾等级:轻度、中度和重度。训练集包含 900 对混合雾霾等级的图像对,测试集则包含每种雾霾等级各 45 对图像对。为保证一致性和计算效率,本研究将所有数据集的图像分辨率调整为 256×256 像素后再进行处理。
4.2 实验环境与训练信息

4.3 结果分析
翻译
在 RICE 数据集上进行了定量评估,如表 1 所示,本研究提出的方法(Ours)实现了 33.24 dB 的 PSNR 和 0.967 的 SSIM,性能优于所有对比方法。首先,RSDformer [24] 取得了相对较高的性能,PSNR 为 33.01 dB,SSIM 为 0.953,但与我们的方法相比,PSNR 低约 0.23 dB,SSIM 低 0.014。在卫星图像恢复领域,PSNR 即使提升 0.1 dB 也被认为具有显著的视觉差异,这表明我们的方法明显超过了这一阈值。
此外,Hwang J 等人 [26] 的方法 PSNR 为 28.90 dB,SSIM 为 0.910,在像素级精度和结构保留方面与我们的方法存在较大差距;DehazeNet [28] 的性能也相对较低(PSNR 为 29.48 dB,SSIM 为 0.921)。这一结果表明,基于 CycleGAN 的模型或传统的端到端网络无法充分捕捉处理卫星和航空图像中常见的复杂大气或云层干扰所需的结构信息。
同时,Vishwakarma S 等人 [30] 的方法 PSNR 为 27.34 dB,SSIM 为 0.912,在所有对比方法中 PSNR 最低,这意味着尽管该研究发表时间较近,但在恢复真实卫星图像时,仍无法充分保留边界和高频细节。HALP [31] 的 PSNR 为 20.91 dB,SSIM 为 0.926;虽然其 SSIM 处于中等水平,但较大的像素级误差导致 PSNR 显著降低。SCANet [32] 的 PSNR 为 30.04 dB,SSIM 为 0.893,但在边界和结构保留方面落后于所提方法,因此 PSNR 和 SSIM 得分相对较低。SpAGAN [34] 的 PSNR 为 30.23 dB,SSIM 为 0.954,与所提方法类似,该方法表明准确保留地形和建筑物的边界信息至关重要。DehazeFormer [35] 的 PSNR 为 32.55 dB,SSIM 为 0.931,在高分辨率去雾方面表现出良好的性能。但与所提方法相比,其在边界和结构细节保留方面仍存在一定差距。
Li C 等人 [38] 的方法 PSNR 为 27.08 dB,SSIM 为 0.940。该方法融合了高斯加权图像融合和基于非锐化掩模的颜色校正,以提高透射率估计的准确性,同时解决颜色失真问题。然而,其 PSNR 和 SSIM 值均低于我们的方法(PSNR 为 33.24,SSIM 为 0.967),这表明基于传统恢复和增强的方法在处理卫星图像中复杂的结构和颜色信息时存在局限性。UAVD-Net [39] 的 PSNR 为 32.05 dB,SSIM 为 0.931。尽管 UAVD-Net 通过全局 – 局部特征融合在结构恢复和颜色增强方面表现出具有竞争力的性能,但其 SSIM(0.931)低于我们的方法,且 PSNR 比我们方法的 33.24 dB 低 1.19 dB。这表明,虽然 UAVD-Net 能够有效捕捉全局和局部特征,但我们的方法通过整合 SwinRRDB 与基于分水岭的结构保留损失,能够更有效地恢复精细的结构细节和颜色一致性,从而实现更优异的重建精度。
归根结底,在大气去除或去云等具有挑战性的图像恢复任务中,仅最小化像素级差异是远远不够的,保留边缘和结构特征至关重要。所提方法通过其网络和损失函数设计,有效融入了结构和边界信息,同时最大限度地提高了像素级恢复精度,从而实现了更优异的 PSNR 和 SSIM。特别是在卫星和航空图像等具有复杂细节的高分辨率数据集上,该方法能够同时控制结构失真和像素误差。这一成果显著提升了其在灾害监测、城市与农业规划以及环境监测等各类遥感应用中的实用价值。
为进一步探究传统基于物理的去雾方法的局限性,采用 He K 等人 [45] 提出的代表性方法进行了定量分析。在 RICE 数据集上,该方法的 PSNR 为 16.03,SSIM 为 0.697。这些结果表明,即使在相对均匀且简单的雾霾条件下,该方法的恢复性能也不尽如人意,无法充分保证结构一致性。在高分辨率卫星图像中,纹理和边界信息对于后续分析至关重要,因此该方法的性能水平使其实际应用面临重大限制。
图 3 展示了输入图像、SCANet [32]、SpAGAN [34]、SUFERNOBWA 以及真实图像(GT)之间的视觉质量对比。分析结果表明,所提方法在颜色保留、结构恢复以及去云和去雾方面均表现出最佳性能。首先,在颜色和亮度保留方面,SCANet [32] 和 SpAGAN [34] 在去云后均出现一定程度的颜色失真。具体而言,在植被区域(第 1 行和第 2 行),部分方法进行了过度的颜色校正,导致绿色调异常突出;在山区(第 3 行),部分方法产生了过亮或偏黄的色调。相比之下,所提方法在自然恢复亮度和对比度的同时,保持了与真实图像最接近的色调,体现出其优越性。其次,在结构和边界恢复方面,SCANet [32] 和 SpAGAN [34] 往往会使道路和河流的边界变得模糊。而所提方法在保留边界自然形态的同时,维持了图像的原始结构,实现了最稳定的结构恢复性能。特别是在山区(第 3 行),所提方法能够准确恢复地形轮廓和边界,性能优于其他方法。最后,在去云和去雾性能方面,SCANet [32] 和 SpAGAN [34] 均存在残留雾霾,无法实现图像的完全恢复。而所提方法在有效去除云层和雾霾的同时,保留了颜色和结构信息,生成的结果与真实图像最为接近。综上所述,所提方法在颜色保留、结构保留和边界恢复方面均表现出最佳性能,克服了现有方法的局限性。特别是在山区颜色和边界恢复以及去云和去雾后生成自然结果方面的优异表现,凸显了其在实际应用中的巨大潜力。
图 4 通过对比 RICE 数据集 [34] 中的输入图像、恢复图像和真实图像(GT),对所提方法的性能进行了评估。该图包含四行,分别对应含河流的城区、沙漠中的城区、沙漠区域和植被区域。分析结果表明,所提方法在去云和去雾方面表现出优异性能,在结构保留和颜色保真度上均十分出色。在含河流的城区(第 1 行),河流边界得到清晰恢复,周边城区结构也被准确重建。在沙漠中的城区(第 2 行),建筑物布局和道路格局被清晰恢复,同时亮度和对比度保持自然。在沙漠区域(第 3 行),地形轮廓恢复清晰,且该方法在未进行过度颜色校正的情况下,成功保留了原始的颜色平衡。最后,在植被区域(第 4 行),植被和人工建筑的恢复结果与真实图像高度一致。因此,所提方法在各种地形环境下均展现出稳健的去云和结构恢复能力,是一种有效的遥感图像恢复优化方案。
随后,在 SateHaze1k [22] 数据集上对所提方法和现有技术进行了性能评估,该数据集将大气条件分为轻度雾霾、中度雾霾和重度雾霾三类。定量结果如表 2 所示。在轻度雾霾条件下,Chen X 等人 [23] 的方法实现了 25.84 dB 的 PSNR 和 0.930 的 SSIM,而所提方法(Ours)的 PSNR 略低,为 24.19 dB,但 SSIM 达到了最高的 0.949。这表明,即使在雾霾程度较轻的环境中,我们的方法不仅能实现像素值的匹配,还能保留边缘和结构信息,最终生成的结果更有利于视觉 / 地理判读和后续数据处理。
在中度雾霾环境下,所提方法的优越性更加明显。其他研究方法的 PSNR 均在 25-26 dB 范围内,而我们的方法实现了 28.15 dB 的 PSNR 和 0.950 的 SSIM,在 PSNR 指标上位居第一。例如,DehFormer [25] 的 PSNR 为 26.80 dB,SSIM 为 0.944,尽管在现有方法中表现具有竞争力,但与所提方法相比,PSNR 仍低 1.35 dB,SSIM 低 0.006。这有力地证明了我们创新的网络架构和损失函数设计的有效性,尤其是在中度雾霾条件下,场景同时包含低频和高频成分时,效果更为显著。
即使在重度雾霾场景下,所提方法仍保持了最高的结构相似性(SSIM=0.910),尽管部分现有方法的 PSNR 值略高。这一现象反映出,基于低频的恢复方法在浓雾环境下往往会以边界模糊或目标融合(过度平滑)为代价来提高 PSNR。相反,我们的方法注重高频细节和边界保留,因此在浓雾环境下仍能保持目标轮廓和整体结构的清晰。
UDAVM-Net [40] 在轻度、中度和重度雾霾条件下的 PSNR 分别为 26.76、27.53 和 23.48 dB,SSIM 分别为 0.934、0.952 和 0.873。值得注意的是,在中度雾霾条件下,该方法表现出色,PSNR 达到 27.53 dB,SSIM 达到 0.952。然而,我们提出的方法实现了 28.15 dB 的 PSNR 和 0.950 的 SSIM,PSNR 提升了 0.62 dB,而 SSIM 仅略微降低 0.002,这一差异几乎可以忽略不计。ICL-Net [41] 在轻度、中度和重度雾霾条件下的 PSNR 分别为 24.59、25.67 和 21.78 dB,SSIM 分别为 0.923、0.937 和 0.859。我们提出的方法在轻度雾霾条件下的 SSIM 达到 0.949,在中度雾霾条件下的 PSNR 达到 28.15 dB,均优于 ICL-Net。
对于 He K 等人 [45] 的方法,在轻度雾霾条件下,该模型的 PSNR 为 13.15 dB,SSIM 为 0.725;但在中度雾霾条件下,性能大幅下降,PSNR 仅为 9.78 dB,SSIM 为 0.574;在重度雾霾条件下,PSNR 为 10.25 dB,SSIM 为 0.585。这表明,随着雾霾浓度或分布的变化,基于物理的模型难以应对日益复杂的情况,无法实现稳定的恢复效果。
综上所述,所提方法在从轻度到中度再到重度的各种雾霾浓度下,均展现出均衡的恢复性能。特别是在中度雾霾区域,该方法实现了最高的 PSNR 和 SSIM;在轻度和重度雾霾条件下,其 SSIM 也位居第一,展现出卓越的边缘和结构保留能力。尽管在某些雾霾条件下,PSNR 可能略低,但整体 SSIM 始终保持最高,确保了恢复图像具有优异的视觉保真度,并保留了细粒度细节。这些优势表明,所提方法在实际遥感作业中能够实现稳定且精准的恢复性能,是一种适用于各类应用领域的高效、可扩展解决方案。
图 5 对比了在 SateHaze1K 数据集最具挑战性的重度雾霾条件下的恢复结果。实验涉及 DehazeFormer [35]、RSDFormer [24] 和所提方法,并通过将它们的结果与输入图像和真实图像(GT)进行对比来展开分析。DehazeFormer [35] 和 RSDFormer [24] 在整体颜色协调性方面表现较好,能够保持自然的色调,尤其是在区域颜色呈现上与真实图像较为接近。相比之下,所提方法生成的颜色往往相对更明亮。然而,在结构恢复方面,尽管 DehazeFormer [35] 和 RSDFormer [24] 在颜色一致性上表现出色,但它们在恢复结构元素方面存在不足。具体而言,道路、建筑物和农业区域往往显得模糊,其边界可能出现失真。另一方面,所提方法展现出卓越的结构相似性,能够有效保留清晰的边界和建筑物形状。尽管所提方法生成的颜色往往更明亮,但其较高的结构相似性使其更适合实际应用。在基于卫星图像的分析中,准确恢复建筑物和道路等关键特征至关重要,因此,结构信息的保留可被视为一项更重要的性能指标。总之,虽然 DehazeFormer [35] 和 RSDFormer [24] 能够实现自然的颜色还原,且颜色与真实图像高度相似,但所提方法在结构恢复方面表现更优,能够更清晰地保留建筑物和道路等关键目标的形状。因此,当考虑到卫星图像实际应用中对地形和结构准确识别的需求时,所提方法更为适用。
图 6 对使用 SateHaze1k [22] 数据集的恢复结果进行了对比评估,每一列分别对应有雾图像、恢复图像和真实图像(GT)。行则代表不同的雾霾条件:第 1 行:轻度,第 2 行:中度,第 3 行:重度。与 RICE [44] 数据集相比,SateHaze1k 数据集由于更接近地面且雾霾分布不均匀,使得在恢复过程中同时保持颜色保真度和结构完整性面临更大挑战。分析结果表明,所提方法在有效保留建筑物和道路等关键结构元素的同时,实现了稳定的恢复效果。特别是在重度雾霾环境(第 3 行)中,建筑物和道路的边界仍能保持相对完好,与现有方法相比,结构失真程度更小。然而,在某些区域,屋顶的反射率低于原始图像,并且在重度雾霾环境下,整体颜色差异更为明显。
此外,与 RICE [44] 数据集的恢复结果相比,道路和边缘细节显得相对不够清晰。这可能是由于颜色重建差异以及输入有雾图像中固有的信息有限所致,这一点在 PSNR 结果中也有所体现。尽管如此,结合定量评估结果来看,所提方法仍展现出更优异的恢复性能,在最大限度减少颜色失真的同时,高度稳定地保留了结构信息。因此,该方法是一种适用于各种雾霾条件的有效且稳健的解决方案,证明了其在实际遥感图像恢复中的适用性。
4.4 消融实验
翻译
本研究通过消融实验,在 RICE 数据集 [44] 上验证了所提损失函数的有效性。为分析每个损失函数的影响,我们将 L2 损失固定为基准,通过选择性应用引导损失(Guided Loss)和分水岭损失(Watershed Loss),评估模型性能的变化。采用峰值信噪比(PSNR)、结构相似性指数(SSIM)和通用质量指数(UQI)作为去雾性能的评价指标。其中,UQI 将亮度、对比度和结构信息整合为单一标量指标,通过三者间的相互关系评估图像整体质量。实验结果如表 3 所示。
首先,仅使用 L2 损失时,在 RICE 数据集上训练的模型实现了 32.71 dB 的 PSNR、0.947 的 SSIM 和 0.791 的 UQI。这一结果表明,若模型仅以最小化像素级差异为训练目标,其去雾性能会受到限制。L2 损失虽专注于减少单个像素的误差,但在去雾等图像恢复任务中,难以有效保留结构信息和边缘细节。即便仅使用 L2 损失,所提模型架构仍能实现较高的 PSNR 性能,但实验发现部分输出图像存在模糊或过度平滑的伪影。
加入分水岭损失后,模型性能显著提升:PSNR 提升至 32.28 dB,SSIM 提升至 0.965,UQI 提升至 0.833。引导损失在保留结构信息方面发挥着关键作用,这对去雾任务至关重要。对于受大气干扰的图像,模型需在去除雾霾的同时,保留原始边缘结构。引入引导损失可增强结构一致性,避免过度平滑,从而保留原始图像的精细细节。值得注意的是,在高对比度区域和边缘区域,这种提升更为明显,体现出引导损失在保留清晰边界方面的能力。在 RICE 数据集上的测试结果显示,与仅使用 L2 损失的模型相比,加入引导损失后,图像恢复结果更精细、更准确。
当应用引导损失时,模型实现了 32.61 dB 的 PSNR、0.966 的 SSIM 和 0.827 的 UQI,性能进一步提升。分水岭损失在保留边缘和轮廓信息方面效果突出,它能引导模型区分图像中的目标与背景。与仅使用 L2 损失的基准模型相比,采用分水岭损失的模型在有效去除大气干扰的同时,边界保留效果更优。若不使用分水岭损失,部分区域的边界易出现模糊;而应用该损失后,可确保原始轮廓线保持清晰。这一特性在使用 RICE 数据集进行卫星图像恢复时尤为重要,因为清晰区分建筑物、道路和河流是该任务的关键要求。
当同时应用三种损失函数时,模型达到最佳性能:PSNR 为 33.24 dB,SSIM 为 0.967,UQI 为 0.835。这一结果表明,引导损失与分水岭损失可相互补充,二者与 L2 损失结合使用时,能最大限度提升整体恢复性能。其中,引导损失助力保留全局结构信息,分水岭损失助力保留局部边缘细节,L2 损失则保障基础的像素级恢复效果。因此,整合三种损失函数可实现最均衡的性能,这也凸显了在图像恢复中,不仅要保证像素精度,还需重视结构完整性和边界清晰度的重要性。
去雾任务不仅是像素恢复问题,更是结构保留挑战。即便模型取得较高的 PSNR 和 SSIM 分数,恢复后的图像仍可能存在边缘模糊或不自然伪影,导致视觉效果不佳。为解决这一问题,所提损失函数在去雾过程中专门设计了结构一致性保障和边界保留机制:引导损失防止结构失真,分水岭损失增强边缘清晰度,L2 损失维持整体像素精度。该方法不仅能减少像素差异,还能提升整体恢复质量,是实现真实感图像重建的优化方案,尤其适用于基于 RICE 数据集的卫星图像去雾任务。
为直观验证所提损失函数组合在结构信息保留方面的有效性,我们对恢复后的图像应用 Canny 边缘检测算法(阈值设为 100 和 200)以生成边缘图。对比对象为两类恢复结果:一类是仅使用 L2 损失训练的模型输出,另一类是采用所提方法(融合 L2 损失、引导损失和分水岭损失)训练的模型输出。结果如图 7 所示,左侧图像为仅使用 L2 损失的模型生成的边缘图,右侧图像为所提方法(含全部损失组件)生成的边缘图。值得注意的是,在图中红色高亮区域,可清晰观察到两种方法在结构保留效果上的差异:仅使用 L2 损失的模型易生成断裂或模糊的边缘,而所提方法能生成更锐利、更连续的边缘结构。这一直观对比证实,所提损失函数对学习 “边界感知型” 结构表示具有显著作用。具体而言,分水岭损失通过引入基于边界分割的空间约束,使模型能更准确地重建目标形状,尤其在高频成分丰富的区域效果更明显。
综上,基于边缘的可视化对比清晰表明,与仅使用单一损失函数训练的模型相比,所提方法在结构保留方面更具优势。这一结果验证了所提模型不仅能提升定量性能,还能实现更高的结构一致性和更优的感知质量。
为定量评估所提网络核心组件 SwinRRDB 模块的有效性,我们开展了消融实验,对比有无该模块时的模型性能。实验在 RICE 和 SateHaze1K 数据集上进行,涵盖轻度(Thin)、中度(Moderate)和重度(Thick)三种雾霾浓度场景。采用图像恢复领域广泛使用的 PSNR 和 SSIM 作为性能评价指标,结果如表 4 所示。
在 RICE 数据集上,未使用 SwinRRDB 模块的模型实现了 30.50 dB 的 PSNR 和 0.952 的 SSIM;而整合 SwinRRDB 模块后,PSNR 提升至 33.24 dB,SSIM 提升至 0.967,绝对增益分别为 2.74 dB 和 0.015。这一结果表明,SwinRRDB 模块对像素级重建精度和结构保真度均有显著贡献。
在 SateHaze1K 数据集的轻度雾霾场景下,未使用 SwinRRDB 模块的模型 PSNR 为 22.00 dB、SSIM 为 0.935;加入该模块后,PSNR 提升至 24.19 dB,SSIM 提升至 0.949,增益分别为 2.19 dB 和 0.014。这说明即便在雾霾浓度较低的场景中,该模块仍能有效恢复精细纹理信息。
在 SateHaze1K 数据集的中度雾霾场景下,未使用 SwinRRDB 模块的模型 PSNR 为 25.72 dB、SSIM 为 0.943;整合该模块后,PSNR 提升至 28.15 dB,SSIM 提升至 0.950,增益分别为 2.43 dB 和 0.007。这体现出该模块在中等雾霾浓度下,对结构一致性的保留能力较强。
在 SateHaze1K 数据集的重度雾霾场景下,未使用 SwinRRDB 模块的模型性能最差,PSNR 仅为 20.98 dB、SSIM 为 0.911;加入该模块后,PSNR 提升至 22.33 dB(增益 1.35 dB),但 SSIM 略微下降至 0.910(降幅 0.001)。这表明在雾霾浓度极高、结构信息严重受损的场景中,该模块虽能提升像素级精度,但对感知质量(SSIM)的提升效果有限。
总体而言,在多数场景下,SwinRRDB 模块均能实现 PSNR 和 SSIM 的双重提升,尤其在低至中度雾霾场景中效果更为显著。这得益于所提 SwinRRDB 架构在去雾过程中,能够有效兼顾局部和全局信息的保留。因此,SwinRRDB 模块是所提网络中的关键性能增强组件,对支撑整体架构的优越性发挥着核心作用。
5 结论
翻译
本研究提出一种基于 Swin Transformer 的混合 U-Net 网络 SUFERNOBWA,用于有效去除卫星图像中的大气干扰。该模型的核心特点在于:通过 SwinRRDB 实现全局上下文学习,基于分水岭损失增强结构恢复效果。针对传统去雾技术面临的空间失真和边界退化问题,本研究引入基于分水岭的损失函数,实现目标边界的精准恢复。实验结果表明,该方法能在有效消除大气干扰的同时,维持卫星图像的结构一致性。
在 RICE 和 SateHaze1K 两个数据集上的实验结果显示,与当前最先进的模型相比,所提方法在 PSNR 和 SSIM 指标上均表现更优,尤其在结构恢复方面具有显著优势。消融实验证实,引导损失和分水岭损失对提升去雾性能均有贡献,其中基于分水岭的损失函数在增强目标边界保留效果方面作用关键,大幅提升了去雾性能。这表明所提方法在去除大气干扰的同时,能有效保留卫星图像中道路、建筑物、地形轮廓等关键目标的结构细节。
然而,本研究仍存在一定局限性。首先,在高反射率区域(如屋顶、水面)可能出现颜色重建误差,这与非均匀雾霾环境下的颜色不一致问题相关。其次,本研究聚焦于单图像去雾,而利用多时相数据和多光谱信息有望实现更稳定的恢复性能。因此,未来研究应致力于解决这些挑战,开发更具泛化性的卫星图像恢复模型。
此外,本研究的实验与评估均基于合成数据集,未在真实卫星图像上进行直接验证。尽管合成数据能精确控制大气干扰条件,便于定量评估,但无法完全模拟真实环境的复杂性(如多变的天气条件、光照变化及多样的地表反射特性)。因此,为验证所提模型在真实场景中的去雾性能是否与合成数据场景相当,需补充基于真实卫星图像的实验。未来研究应采用真实数据对模型进行训练与评估,以严格验证其泛化能力和实际应用价值。