img

官方微信

遥感技术与应用, 2022, 37(4): 820-828 doi: 10.11873/j.issn.1004-0323.2022.4.0820

深度学习专栏

GCM+-LANet:遥感图像语义分割的全局卷积模块与局部注意力网络模型

翁梦倩,1, 胡蕾,1, 张永梅2, 凌杰1, 李云洪1

1.江西师范大学 计算机信息工程学院,江西 南昌 330022

2.北方工业大学 信息学院,北京 100144

GCM+-LANet:Global Convolution Module+ and Local Attention Network for Semantic Segmentation of Remote Sensing Images

Weng Mengqian,1, Hu Lei,1, Zhang Yongmei2, Ling Jie1, Li Yunhong1

1.Jiangxi Normal University,School of Computer Information Engineering,Nanchang 330022,China

2.North China University of Technology,School of Information,Beijing 100144,China

通讯作者: 胡蕾(1980-),女,江西樟树人,博士,副教授,主要从事图像处理、数据智能分析等方面的研究。E⁃mail:hulei@jxnu.edu.cn

收稿日期: 2021-08-31   修回日期: 2022-07-12  

基金资助: 国家自然科学基金项目.  61662033
江西省教育厅科学技术研究项目.  GJJ210326

Received: 2021-08-31   Revised: 2022-07-12  

作者简介 About authors

翁梦倩(1996-),女,江西上饶人,硕士研究生,主要从事遥感图像语义分割研究E⁃mail:1059257750@qq.com. , E-mail:1059257750@qq.com

摘要

遥感图像地物种类丰富、尺寸多变、分布不均衡、背景复杂,导致经典图像语义分割网络难以在遥感图像上取得理想分割效果。局部注意力网络模型(LANet)在遥感图像语义分割上取得了较好的实验效果,但大尺寸、小尺寸和细长的地物目标分割效果不佳。提出了一种改进LANet网络的高分辨率遥感图像语义分割网络模型,首先,针对全局特征提取设计了全局卷积模块(GCM+),以组合卷积的形式扩大感受野,提升大尺寸地物目标的分割性能;其次,利用针对计算机视觉提出的激活函数Funnel ReLU(FReLU)来解决细小目标漏分的问题。实验结果表明:该网络模型在Potsdam数据集上平均交并比达到了75.83%,像素准确率达到了94.95%,比基础网络LANet有较大提升。

关键词: 遥感图像 ; 语义分割 ; 全局卷积模块 ; 局部注意力网络模型 ; 激活函数

Abstract

Because of the variety, variable size, uneven distribution and complex background of ground objects, the classical image semantic segmentation network is difficult to achieve ideal segmentation results in remote sensing images. Local Attention Network (LANet) has achieved good results in remote sensing image semantic segmentation, but the segmentation effect of large-size, slender and small ground objects are not very good. Therefore, based on LANet a semantic segmentation network is proposed to high resolution remote sensing image. Firstly, Global Convolution Module+ (GCM+) aimed at global feature extraction is designed to enlarge the receptive field by combining convolution, which can improve the segmentation performance of large-size objects. Secondly, the activation function Funnel ReLU (FReLU) proposed to computer vision is used to solve the problem of missing slender and small targets. The experimental results show that the mean intersection over union of the network of the Potsdam dataset reaches 75.83 %, and the pixel accuracy reaches 94.95 %, which is greatly improved than LANet.

Keywords: Remote sensing image ; Semantic segmentation ; Global convolution module ; Local attention network ; Activation function

PDF (4128KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

翁梦倩, 胡蕾, 张永梅, 凌杰, 李云洪. GCM+-LANet:遥感图像语义分割的全局卷积模块与局部注意力网络模型. 遥感技术与应用[J], 2022, 37(4): 820-828 doi:10.11873/j.issn.1004-0323.2022.4.0820

Weng Mengqian, Hu Lei, Zhang Yongmei, Ling Jie, Li Yunhong. GCM+-LANet:Global Convolution Module+ and Local Attention Network for Semantic Segmentation of Remote Sensing Images. Remote Sensing Technology and Application[J], 2022, 37(4): 820-828 doi:10.11873/j.issn.1004-0323.2022.4.0820

1 引 言

遥感图像已成为获取地表信息的主要数据来源,遥感图像语义分割广泛应用于土地监测、城市规划、环境监测等领域。随着卫星遥感技术的不断发展,遥感图像的分辨率有很大的提高,高分辨率遥感图像中细小目标得到呈现,地物目标的尺寸差异大成为遥感图像语义分割的新挑战。

图像语义分割需要同时完成分类和定位两个任务:将图像中的每个物体精确分割出来,同时对每个物体进行分类。但是,这两个任务是相互矛盾的1,对于分类任务,要求模型对各种几何变化(例如旋转、平移)具有不变性;对于定位任务,模型应该对几何变化具有敏感性,因为每个像素都需要在正确的位置上进行分类。传统遥感图像语义分割方法多采用无监督或有监督的学习方法,例如K-means2、期望最大化(Exceptation Maximization,EM)算法3、决策树方法4、支持向量机(Support Vector Machine,SVM)算法5、最大似然法6、随机森林(Random Forests,RF)算法7和其他机器学习算法。这些传统的机器学习方法更多地依赖于光谱特征8,而未充分利用高分辨率遥感影像的空间上下文和纹理信息,分割精度通常较低。

遥感图像中不同类别的地物可能具有相似的光谱特征,因此需要提取空间上下文信息来提升分割效果。随着深度学习方法被逐渐应用到图像分割领域,卷积神经网络(Convolutional Neural Networks,CNN)在光谱和空间上下文信息提取方面具有很强的能力。全卷积网络(Fully Convolution Network,FCN)9显著地提高了图像语义分割的精度,但仍存在空间上下文信息利用不足的问题。空间上下文信息在图像语义分割领域发挥着至关重要的作用,引入更多的空间上下文信息有助于更好地区分目标对象10。Ronneberger等11提出的U-Net模型,使用编码器—解码器对称结构和跳跃连接来提取空间上下文信息,近几年在遥感图像语义分割领域逐渐被采用。Badrinarayanan等12提出的SegNet网络也是采用编码器—解码器结构来提取空间上下文信息,其不同点是在下采样时记住最大池化的索引位置,在上采样时调用该索引位置,对特征图进行不断补全,从而完成上采样操作。Chen等13-16提出的DeepLab系列网络模型在图像语义分割上具有很大的影响力,为了获取更丰富的空间上下文信息,DeepLab V2分割网络首次提出了空洞空间金字塔池化模块(Atrous Spatial Pyramid Pooling,ASPP),利用ASPP扩大感受野来增强空间上下文信息的提取。之后的DeepLab V3在ASPP模块中引入了全局平均池化(Global Average Pooling,GAP),更好地利用了全局信息。DeepLab V3+模型进一步增加了编码器结构,将编码器输出的低层特征和ASPP输出的高层特征相融合,以获得多尺度的特征信息,提高了分割效果。

近几年,遥感图像语义分割也逐渐采用深度学习方法。Yang等17采用FCN-AlexNet和SegNet两种语义分割网络模型来估计大面积稻田中的水稻倒伏情况,实验表明两种网络在无人机图像上的水稻倒伏识别中都能获得较好的结果。Abdollahi等18针对高分辨率遥感影像的建筑物检测,将SegNet和U-Net结合提出了Seg-Unet网络模型,在建筑物检测数据集上达到了较高的检测精度。He等19利用了ASPP提取多尺度特征的能力和编解码器网络提取细节特征的能力,将ASPP与编码器—解码器网络相结合,提高了道路提取的性能。

经典的语义分割网络模型通常难以捕捉遥感图像的地物轮廓信息,难以提取地物之间的空间上下文关系,从而导致分割边界比较粗糙、细小目标容易被漏分、大目标难以完整地被分割出来。LANet20网络模型针对遥感图像语义信息丰富的特性设计了基于补丁级别的注意力机制提取空间上下文信息,在遥感图像语义分割上取得了良好的分割效果。Hou等21将位置信息嵌入到了通道注意力中提出了一种新的注意力机制,即Coordinate Attention,该注意力机制在自然图像上取得了较好的分割效果,但在遥感数据集上的效果不是很理想。Peng等1提出一种全局卷积网络模型,在整个网络模型中堆叠多个GCM来扩大感受野,获取更丰富的空间上下文信息。二维漏斗激活函数(Funnel ReLU,FReLU)以像素本身或其空间上下文信息作为非线性函数条件产生空间依赖关系,能形成不同大小的激活区域块,有利于捕获细小目标,细化物体分割边界22

引入注意力机制,获取全局特征和产生空间依赖关系可以更好地提取遥感图像上下文信息、细化分割边界。受到这些工作的启发,对LANet网络模型进行改进,提出了遥感图像语义分割的全局卷积模块与局部注意力网络模型(GCM+-LANet),并在遥感数据集上与经典的语义分割网络进行了对比实验。实验的贡献主要包括以下4个方面:

(1)采用LANet网络模型作为基础网络进行语义分割,提取丰富的上下文信息。

(2)受全卷积网络模型的启发,在GCM模块上进行改进,提出了GCM+模块并加入到LANet网络模型中,提取全局特征,提高大尺寸地物目标的分割精度。

(3)引用FReLU激活函数提升细长或较小目标物体分割效果,细化分割边界。

(4)聚合使用GCM+模块和FReLU激活函数,减少高分辨率遥感图像地物尺寸差异大对分割结果的影响。

2 研究方法

2.1 LANet网络模型

LANet20网络模型以ResNet5023为初步特征提取网络,主要由两个独立模块组成:①补丁注意力模块(Patch Attention Module,PAM),用于增强局部上下文信息;②注意力嵌入模块(Attention Embedding Module,AEM),用于改进空间信息利用。

2.1.1 PAM

遥感图像语义分割受异物同谱的影响,容易出现错分的现象,PAM的提出可以增强类别之间空间上下文信息的聚合,从而减少地物之间错分。PAM(如图1所示)参照了SE-block24的思想,通过局部补丁结构限制提取信息范围,能获取每个通道上的局部空间上下文信息,通过使用卷积操作代替全连接操作来生成其他补丁,也无需分配额外的权重,最后进行上采样操作,将特征图放大到输入图像的大小。

图1

图1   PAM模块结构图

Fig.1   Architecture of PAM


2.1.2 AEM

由于低层特征在空间分布上与高层特征不同,因此很难有效利用低层特征。利用低层特征最常用的方法是将它们与高层特征连接,但这样处理对最终效果只会有轻微的提升。AEM(如图2所示)为了充分利用低层特征,将局部注意力从高层特征嵌入到低层特征中,使得低层特征在保留其原有空间信息的同时进一步引入上下文信息,突破其感受野的限制,也缩小了低层特征和高层特征之间的差距。

图2

图2   AEM模块结构图

Fig.2   Architecture of AEM


2.2 GCM+-LANet网络模型

GCM+-LANet网络模型是以FCN作为分割框架,在LANet的基础上加入了GCM+模块,并将RestNet50的BottleNeck残差模块激活层的激活函数用FReLU替换,主要有两个并行分支来处理来自不同层的特征(如图3所示)。在上层分支中,经过ResNet50生成的高层特征通过PAM增强其特征表示;在下层分支中,卷积生成的低层特征首先通过PAM进行特征增强,然后通过AEM从高层嵌入语义信息。在PAM和AEM模块后都连接一个GCM+模块,获取全局上下文信息。

图3

图3   GCM+-LANet网络模型结构图

Fig.3   Architecture of the proposed GCM+-LANet


2.2.1 GCM+

目前语义分割网络主要遵循定位优先的设计原则,对于分类任务是次优的。遥感图像的地物尺寸分布不均衡,有的地物尺寸大,有的地物尺寸小。在同样大小的感受野中,小尺寸的地物能被全部覆盖,但是大尺寸的地物不能完全被覆盖,提取大尺寸地物的空间上下文信息不丰富,导致分类效果不是很好。

针对以上问题提出了GCM+,该模块遵循以下两个设计原则:①从定位的角度来看,模型结构应该用全卷积来保留位置信息,且不使用全连接层或全局池化层,因为这些层会丢失部分信息;②从分类的角度来看,网络体系结构中应采用尽可能大的卷积核,以实现特征图和每个像素分类器之间的密集连接,使分类网络具备更强的分类能力来应对各种变换。

基于以上两个设计原则,GCM+采用k×1+1×k、1×1+1×1和1×k+k×1的组合卷积,而不是直接使用较大的卷积核与特征图进行密集连接。如图4所示,GCM+模块中的参数h和参数w分别是输入特征图的长和宽、参数c代表输入特征图的通道数、参数n代表实验数据集总类别数、参数k为每个卷积的卷积核大小。

图4

图4   GCM+结构图

Fig.4   Architecture of the proposed GCM+


与GCM模块1有两个分支不同,实验中GCM+模块有3个分支,每个分支都有两层卷积,如图4所示。第一个分支(P1)的两层Conv2d分别采用k×1和1×k的卷积核。第二个分支(P2)的两层Conv2d都采用1×1和1×1大小的卷积核。第三个分支(P3)的两层Conv2d分别采用k×1和1×k大小的卷积核。P1、P2和P3分支组合能在增加少量参数量的同时达到直接使用k×k大卷积核的分割效果。

GCM+模块中特征图相加操作过程为:将经过P1分支和P2分支的特征图进行加和操作P1+P2,相加后的结果再与经过P3分支得到的特征图进行加和操作,加和操作后的输出为模块特征图。GCM+模块扩大了感受野,提高了目标物体的定位精度,从而能对目标物体进行更精确的分类。

2.2.2 FReLU

实验在初步特征提取模型RestNet50中的BottleNeck上进行改进,如图5所示,将BottleNeck中的每个卷积层最后的激活函数都改为FReLU22。该激活函数通过增加空间条件将ReLU和PReLU扩展为二维激活。图6给出了ReLU、PReLU和FReLU的示意图。

图5

图5   RestNet50的BottleNeck结构图

Fig.5   “BottleNeck” building block for RestNet50


图6

图6   ReLU、PReLU和FReLU激活函数

(a)ReLU (b)PReLU (c)FReLU

Fig.6   ReLU, PReLU and FReLU activation functions


ReLU和PReLU的形式分别为y=max(x,0)y=max(x,px),ReLU采用max()作为非线性函数,并使用人工设计的零作为条件。FReLU采用了ReLU的思想,使用max()获得x和条件之间的最大值,其形式为y=max(x,T(x)),其中T()是二维空间条件,以简单卷积的方式实现空间上下文信息提取。FReLU将漏斗条件部分扩展为取决于每个像素的空间上下文信息。因此,FReLU的条件取决于像素本身或空间上下文。

遥感图像分辨率大、背景复杂,许多小目标容易被视为背景噪声而出现漏分的现象。FReLU引进了将空间上下文信息作为非线性函数条件的方法,能有效地改善错分、漏分的现象,提高遥感图像语义分割的精度。

3 实 验

3.1 数据与研究区

使用ISPRS数据集25中Potsdam区域的城市高分辨率遥感图像作为研究区数据进行实验,该数据集共有38幅图像,所有的图像大小都是6 000×6 000像素。Potsdam区域中有6种土地类别(图7),分别是不透水的表面、建筑物、低植被、树木、汽车和杂类/背景,杂类/背景主要包括水体和已定义为类别之外的地物,这些地物通常属于城市场景中不感兴趣的语义对象。为得到充足的实验数据,实验开始前对数据集进行了预处理,主要为图像切割和数据增强。将数据集中的图像均匀切割成512×512像素大小的图像,并对图像进行水平翻转和垂直翻转来进行数据增强。过滤掉一些标签存在问题的图像后,按照6∶2∶2的比例将数据集划分成训练集、验证集和测试集。

图7

图7   Potsdam数据集

Fig.7   The Potsdam dataset


3.2 实验环境与超参数设置

实验采用Pytorch深度学习框架,使用一块NVIDIA GeForce GTX 1080 Ti显卡。实验的各项参数设置有:batch size设置为2,学习率设置为0.025,epochs设置为400,momentum设置为0.9,使用随机梯度下降(Stochastic Gradient Descent,SGD)优化算法进行优化训练。

3.3 模型评价指标

遥感图像语义分割实际上还是分类任务,预测的结果也有4种情况,分别是:真正例(True Positive,TP)、假正例(False Positive,FP)、真负例(True Negative,TN)和假负例(False Negative,FN)。其中TP为预测结果中属于该类的实际也为该类的像素数量;FP为预测结果中属于其他类别而实际为该类的像素数量;TN为预测结果中属于其他类的而实际也为其他类的像素数量;FN为预测属于该类而实际为其他类别的像素数量。

采用像素准确率(Pix Accuracy,PA)、F1值和平均交并比(Mean Intersection over Union,MIoU)作为模型评价指标,其公式如下:

PA表示预测类别正确的像素占总像素的比例。

PA=TP+TNTP+TN+FP+FN

F1值的定义为精确率和召回率的调和平均值。

Precision=TPTP+FP
Recall=TPTP+FN
F1=2PrecisionRecallPrecision+Recall

MIoU由于具有代表性成为语义分割的重要的标准度量指标。MIoU将基于类计算的交并比IoU进行累加,再进行平均,得到图像的全局评价。

IoU=TPTP+FP+FN
MIoU=1ni=1nIoU

其中:n是类别数;i是代表第i类。

3.4 实验结果与分析

3.4.1 分割精度分析

为了验证本文方法的有效性,与FCN8、U-Net10、SegNet11、LANet19、DeepLab V3+[15]、Coordinate Attention20等典型网络模型进行对比,各方法的评价指标如表1所示。从表1可以看出,相较于FCN、DeepLab V3+等经典的语义分割网络来说,基于局部补丁注意的网络模型LANet的PA能达到91.83%、F1能达到77.29%、MIoU能达到70.19%,后两个指标结果与经典的语义分割方法相比都略占优势,所以本文方法GCM+-LANet网络模型是在LANet上进行改进的。由于FCN、DeepLab V3+等对比网络特征提取时采用的是3×3大小卷积核,为了更好地进行对比,在对比实验过程中GCM+-LANet网络中GCM+模块的参数k也设置为3。此时,GCM+-LANet网络的PA达到了94.42%、F1达到了80.99%、MIoU达到了75.27%,比基础网络LANet分别提高了2.59%、3.7%和5.08%。

表1   不同方法在Potsdam数据集上的分割精度

Table 1  Segmentation accuracy of different methods of Potsdam dataset

网络模型PA/%F1/%MIoU/%
FCN92.4077.2170.09
U-Net91.8277.0569.98
SegNet91.5575.9268.62
LANet91.8377.2970.19
DeepLab V3+86.9968.1459.34
Coordinate Attention90.9475.4567.94
GCM+-LANet(k=3)94.4280.9975.27

新窗口打开| 下载CSV


3.4.2 效果图分析

为了能更好突出本文方法的可行性,如图8所示,分别选取了6个有代表性的场景进行分析。其中场景1有边界规则的建筑物,用来探究网络在细化分割边界的效果;场景2有小的和细长的地物类别,用来探究小目标和细长目标的分割性能;场景3是有大尺寸的地物,用来探究网络对于大尺寸目标的分割能力。场景6有较明显明暗区域,用于分析受阴影影响网络的分割性能。

图8

图8   不同网络模型在Potsdam数据集上的预测结果对比

Fig.8   Comparison of prediction results of different network models of Potsdam dataset


分析图8的效果图细节,对于场景1,从左边圆圈框住的区域看,DeepLab V3+、SegNet、U-Net、FCN和LANet均未检测出建筑物,GCM+-LANet和Coordinate Attention则能成功检测出建筑物。从右边圆圈框住的区域看,DeepLab V3+、Coordinate Attention、SegNet、FCN和LANet建筑物的边界比较粗糙,而GCM+-LANet和U-Net的分割边界则比较平整,说明GCM+-LANet加入的GCM+和FReLU能提高分类能力和细化边界。场景2的两个圆圈区域中GCM+-LANet和Coordinate Attention能将小的和细长的地物类别分割出来,说明GCM+-LANet中加入FReLU,利用将空间上下文作为非线性函数的条件,在特征提取时能更好地利用上下文信息。从场景3中的矩形框和上下两个圆圈区域可以看出,只有GCM+-LANet能将大面积的建筑物形状给正确的分割出来,而且还不产生多余的噪声点,表明GCM+模块使用多卷积组合扩大感受野,能提升大尺寸地物类别的分类性能。从场景4和场景5中看,只有GCM+-LANet网络分割出来的结果图最接近标注的标签图,进一步验证了本文方法的有效性。

从场景6的矩形框来看,当地物受阴影遮挡时,FCN、U-Net等语义分割网络会将它错分为低植被这一类,GCM+-LANet则能正确将它分为建筑物一类。但是,从场景6中的圆形框来看,在受阴影的影响下,GCM+-LANet对易混淆的地物(如图中的低植被和树木)也会出现轻微地错分现象。所以GCM+-LANet对阴影影响有较好的容忍性,但还需要进一步提高。

3.4.3 GCM+模块参数k值分析

GCM+模块实现了分类器和特征图之间的密集连接,其参数设置分别为:w=16、h=16、c=128和n=6,因此只需对参数k进行讨论。GCM+的核心思想是使用大内核,其大小由参数k决定,k的取值将会直接影响分割结果。为了进行验证,实验中分别将k设置为3、5、7、9、11、13、15。当k=15时GCM+模块近似于16×16大小的特征图,此时网络就变成了真正的全局卷积结构。

图9的趋势折线图来看,当k=3时,GCM+-LANet网络模型预测的MIoU为75.27%、参数量为24.42 MB,随着k值的增大MIoU值缓慢提升,到k=15时,预测的MIoU达到了75.83%、参数量达到了25.6 MB。模型的性能随着k值的增加而提升,但是产生的参数量也越大。

图9

图9   k值对MIoU和参数量的影响分析

Fig.9   Analysis of the influence of k on MIoU and parameter number


4 讨 论

一直以来,精确分割大尺寸和细小地物目标是高分辨率遥感图像语义分割的技术难点。鉴于此,实验分别采用GCM+模块和FReLU激活函数来提升分割精度,并与其他经典的语义分割网络结果对比,研究发现:①GCM+模块因使用3分支形成组合卷积结构扩大感受野,使得分类器对大尺寸地物目标有足够大的密集连接范围,能提取更完整的语义信息,能更精确地定位大尺寸地物目标的边界;②FReLU激活函数由于将空间上下文信息作为非线性函数条件,能减少将细小的地物目标视为背景噪声的分割情况,降低了细小目标漏分的情况。其他经典的语义分割网络结果中,SegNet和U-Net对规则的大尺寸目标也有较好的分割效果,但有时候对细长、小尺寸和不规则大尺寸目标分割效果不是很好。而Coordinate Attention利用将位置信息嵌入到通道注意力的方法增强上下文信息提取,能较准确地分割出细长和小尺寸地物目标,但是可能会产生其他多余的噪声点且难以完整地分割出不规则大尺寸地物。

GCM+模块中参数k的值会直接影响分割结果,模型预测的MIoU会随着k值的增大而增大。这是因为当k值增加时,组合卷积有更大的感受野,与分割对象进行更大范围的密集连接,提取更丰富的语义信息。

值得注意的是,实验是基于深度学习的方法对遥感图像语义分割研究问题开展开研究,虽然取得了一定的研究成果,但仍存在需要改进和完善的地方:由于实验采用全监督的方式进行网络训练,因此训练过程中需要大量的高质量样本数据,并且该样本数据难以获取。针对这一问题,未来的工作可以研究半监督或弱监督的方法,并将其运用于高分辨率遥感图像语义分割。

5 结 语

为了提高高分辨率遥感图像语义分割精度,实验基于LANet模型提出了GCM+-LANet模型,设计了1×k+k×1、1×1+1×1和k×1+1×k组合卷积构成GCM+模块加入到网络模型中,另外还引入一种新的激活函数FReLU以改善网络模型。GCM+-LANet在大尺寸地物、小尺寸和细长的地物上都能达到更好的分割效果,比基础网络LANet在PA、F1和MIoU上分别提高了2.59%、3.7%和5.08%。

参考文献

Chao PZhang XGang Yet al.

Large kernel matters-improve semantic segmentation by global convolutional network

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USAIEEE20174353-4361.

[本文引用: 3]

Likas AVlassis NVerbeek J.

The Global K-means clustering algorithm

[J]. Pattern Recognition, 2003362): 451-461.DOI:10.1016/S0031-3203(02)00060-2 .

[本文引用: 1]

Carson CBelongie SGreenspan Het al.

Blobworld: Image segmentation using expectation-maximization and its application to image querying

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002248):1026-1038. DOI: 10.1109/TPAMI.2002.1023800 .

[本文引用: 1]

Li ShuangDing ShengyanQian Yuexiang.

The decisiontree classification and its application research in land cover

[J]. Remote Sensing Technology and Application, 2002171): 6-11.

[本文引用: 1]

李爽丁圣彦钱乐祥.

决策树分类法及其在土地覆盖分类中的应用

[J].遥感技术与应用, 2002171): 6-11.

[本文引用: 1]

Song MCivco D.

Road extraction using SVM and image segmentation

[J]. Photogrammetric Engineering & Remote Sensing,20047012): 1365-1371. DOI: 10.14358/P-ERS. 70.12.1365 .

[本文引用: 1]

Stéphane GOlivier G.

A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood

[J]. Systematic Bology, 2003525): 696-704. DOI: 10.1080/10635150390235520 .

[本文引用: 1]

Jordan M IMitchell T M.

Machine learning: Trends, perspectives, and prospects

[J]. Science, 20153496245): 255-260. DOI: 10.1126/science.aaa8415 .

[本文引用: 1]

Gu XiaotianGao XiaohongMa Huijuanet al.

Comparison of machine learning methods for land use/land cover classification in the complicated terrain regions

[J].Remote Sensing Te-chnology and Application, 2019341):59-69.

[本文引用: 2]

谷晓天高小红马慧娟.

复杂地形区土地利用/土地覆被分类机器学习方法比较研究

[J]. 遥感技术与应用, 2019341): 59-69.

[本文引用: 2]

Long JShelhamer EDarrell T.

Fully convolutional networks for semantic segmentation

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)Boston,MA,USAIEEE20153431-3440.

[本文引用: 1]

Zhang HDana KShi Jet al.

Context encoding for semantic segmentation

[C]∥ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition( CVPR). Salt Lake City, UT, USAIEEE20187151-7160.

[本文引用: 2]

Ronneberger OFischer PBrox T.

U-Net: convolutional networks for biomedical image segmentation

[C]∥ International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, GermanySpringer2015234-241.

[本文引用: 2]

Badrinarayanan VKendall ACipolla R.

Segnet: A deep convolutional encoder-decoder srchitecture for image segmentation

[J]. IEEETransactions on Pattern Analysisand Machine Intelligence,20173912):2481-2495. DOI: 10.1109/TPAMI.2016.2644615 .

[本文引用: 1]

Chen L CPapandreou GKokkinos Iet al.

Semantic image segmentation with deep convolutional nets and fully connected CRFs

[EB/OL]. arXiv Preprint arXiv: , 2014.

[本文引用: 1]

Chen L CPapandreou GKokkinos Iet al.

Deep lab: Semantic image segmentation with deep convolutional nets, atrous convolution, and Fully Connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018404):834-848. DOI:10.1109/TPAMI.2017.2699184 .

Chen L CPapandreou GSchroff Fet al.

Rethinking atrous convolution for semantic image segmentation

[EB/OL]. arXiv Preprint arXiv: , 2017.

Chen L CZhu YPapandreou Get al.

Encoder decoder with atrous separable convolution for semantic image segmentation

[C]∥ Proceedings of the European Conference on Computer Vision(ECCV). Munich,GermanyIEEE2018801-818.

[本文引用: 1]

Yang M DTseng H HHsu Y Cet al.

Semantic segmentation using deep learning with vegetation indicesfor rice lodging identification in multi date UAV visible Images

[J]. Remote Sensing, 2020124): 633-652. DOI: 10.3390/rs12040633 .

[本文引用: 1]

Abdollahi APradhan BAlamri A M.

An ensemble architecture of deep convolutional segnet and U-Net networks for building semantic segmentation from high resolution aerial images

[J].Geocarto International,20203):116. DOI: 10.1080/ 10106049.2020.1856199 .

[本文引用: 1]

He HYang DWang Set al.

Road extraction by using atrous spatial pyramid pooling integrated encoder decoder network and structural similarity loss

[J]. Remote Sensing, 2019119): 1015-1030. DOI:10.3390/rs11091015 .

[本文引用: 2]

Ding LTang HBruzzone L.

LANet: Local attention embedding to improve the semantic segmentation of remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing,2020591):426-435. DOI:10.1109/TGRS. 2020. 2994150 .

[本文引用: 3]

Hou QZhou DFeng J.

Coordinate attention for efficient mobile network design

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 202113713-13722.

[本文引用: 1]

Ma NZhang XSun J.

Funnel activation for visual recognition

[C]∥ Proceedings of the European Conference onComputer Vision(ECCV)Glasgow, UKSpringer2020351-368.

[本文引用: 2]

He KZhang XRen Set al.

Deep residual learning for image recognition

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, NV, USAIEEE2016770-778.

[本文引用: 1]

Hu JShen LSun G.

Squeeze and excitation networks

[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, UTIEEE20187132-7141.

[本文引用: 1]

Rottensteiner FSohn GGerke Met al.

Results of the ISPRS benchmark on urban object detection and 3D building reconstruction

[J]. ISPRS Journal of Photogrammetry and Remote Sensing,201493256-271. DOI:10.1016/j.isprsjprs. 2013.10.00 .

[本文引用: 1]

/