img

官方微信

遥感技术与应用, 2023, 38(4): 913-923 doi: 10.11873/j.issn.1004-0323.2023.4.0913

数据与图像处理

基于神经网络注意力架构搜索的光学遥感图像场景分类

曹斌,1, 郑恩让,1, 沈钧戈2

1.陕西科技大学 电气与控制工程学院,陕西 西安 710021

2.西北工业大学 无人系统技术研究院,陕西 西安 710072

Neural Network Attention Architecture Search for Optical Remote Sensing Image Scene Classification

CAO Bin,1, ZHENG Enrang,1, SHEN Junge2

1.School of Electrical and Control Engineering,Shaanxi University of Science and Technology,Xi’an 710021,China

2.Unmanned System Research Institute,Northwestern Polytechnical University,Xi’an 710072,China

通讯作者: 郑恩让(1962-),男,陕西凤翔人,教授,主要从事智能信息处理研究。E⁃mail: zhenger@sust.edu.cn

收稿日期: 2021-04-15   修回日期: 2021-06-24  

基金资助: 国家自然科学基金项目.  61603233
河南省水下重点实验室开放基金项目.  D5204200587

Received: 2021-04-15   Revised: 2021-06-24  

作者简介 About authors

曹斌(1997-),男,河南新郑人,硕士研究生,主要从事深度学习、计算机视觉、遥感图像分析研究E⁃mail:caobnas@163.com , E-mail:caobnas@163.com

摘要

针对光学遥感图像场景分类存在类别变化、样本数量变化,场景图像中背景与重要物体变换大、尺度变化多的问题,提出基于神经网络注意力架构搜索的光学遥感图像场景分类方法,由算法自适应在神经网络中搜索卷积、池化、注意力等操作,构建能完成光学遥感图像场景分类任务的神经网络。为保证搜索神经网络过程稳定性,提出两段式贪婪策略网络搜索方法,分阶段丢弃无用操作,减少搜索算法负担、提高搜索速度。最后为了关注各物体与场景关联信息,提出自上而下的网络连接策略,充分复用各阶段多尺度特征图的语义。实验结果证明:该方法相较于手工设计的经典深度学习方法具有更好的性能。在AID、NWPU、PATTERNET 3个遥感图像标准数据集上总体精度均超过经典方法。在AID数据集上准确率达到94.04%;在PATTERNET数据集上准确率达到99.62%;在NWPU数据集上达到95.49%。

关键词: 遥感 ; 场景分类 ; 神经网络架构搜索 ; 贪婪算法 ; 网络连接策略

Abstract

With majority problems in image scene of optical remote, changing category in classification, variational size in sample, diverse changing of scale between backgrounds and essential objectives, for instance, new Classification Algorithm for scene classification of optical remote sensing image base on attention architecture search of neural network is proposed in this paper. This algorithm can search convolution, pooling, attention and other operations in the neural network, adaptively; and complete the construction task of scene classification for optical remote sensing images in neural network. Two-stage greedy algorithms network search is mentioned in order to ensure the stability of neural search network. This method abandons useless operations in stage which can reduce algorithm burden and improve speed of search. Furthermore, a top-bottom connection strategy of network, which can fully reuse the semantics of multi-scale feature maps in each stage, is proposed to merge information between each object and scene. The experimental results proved that the method proposed in this paper has better performance than the classical deep learning method designed by hand. Overall, the accuracy of this method in all three remote sensing image-standard data sets (AID, NWPU and PatterNet) is exceeding the classic method. The accuracy rate of AID data set, PatterNet data set, and NWPU data set are 94.04%, 99.62%, and 95.49%, respectively.

Keywords: Remote sensing ; Scene classification ; Neural network architecture search ; Greedy algorithms ; Network connection strategy

PDF (9994KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

曹斌, 郑恩让, 沈钧戈. 基于神经网络注意力架构搜索的光学遥感图像场景分类. 遥感技术与应用[J], 2023, 38(4): 913-923 doi:10.11873/j.issn.1004-0323.2023.4.0913

CAO Bin, ZHENG Enrang, SHEN Junge. Neural Network Attention Architecture Search for Optical Remote Sensing Image Scene Classification. Remote Sensing Technology and Application[J], 2023, 38(4): 913-923 doi:10.11873/j.issn.1004-0323.2023.4.0913

1 引 言

近年来,随着遥感观测技术不断升级,越来越多高分辨率遥感图像数据被获取1-2,如何高效和充分利用这些数据成为学术界的研究重点。遥感场景分类3任务作为分析遥感数据的基础性工作存在数据数量和数据类别不断增多的情况,传统深度学习方法对这种情况有两种解决方案:第一种根据新数据集特点重新构建网络,然后重新训练神经网络。这种方法耗费大量时间而且需要很多的人力来调整网络结构。第二种使用迁移学习的方法4,以自然图像分类的网络作为基础网络,在导入自然图像分类任务上预训练完善的权重后,输入遥感图像进行再训练。这种解决方案能节约训练时间,但由于经典网络和预训练权重并不是专门对应遥感图像问题设置,所以得到的网络往往并不是新数据集的最优网络。实验使用神经网络架构搜索方法5,通过算法从搜索空间中自适应取出各种网络操作,算法自动根据网络构建策略构成适用于遥感图像场景分类问题的网络架构,这样既节约人力算力,又得到适用于目标场景分类问题的神经网络。

在遥感场景分类图像问题上,往往存在图像场景复杂的问题,而且各类场景中具有代表性的不同尺度物体。如何利用复杂的场景信息和复杂的多尺度物体成为解决遥感场景分类任务的重点研究方向。Xu等6根据复杂场景和多尺度物体提出一种软注意力机制和反馈注意力机制的结合。Wang等7提出一种循环注意力架构重点在高层语义特征中通过注意力机制提取全局信息。实验将采用神经网络架构搜索的方式自适应构建注意力操作在网络模块中的位置,通过算法充分利用注意力机制的特点,充分发掘各个层中语义信息。根据遥感分类任务,提出通道注意力机制的卷积搜索空间,使得网络可以通过通道注意力机制重点关注通道语义信息。Ye等8通过改进网络连接策略,提取网络不同阶段语义信息进行融合,利用不同尺度物体和背景的语义特征完成分类。实验根据神经网络架构搜索任务,提出网络连接方式融合不同阶段特征信息。

综上,本实验提出基于神经网络注意力架构搜索的光学遥感图像场景分类方法具有以下优点:①为使深度学习算法自动搜索适合遥感场景分类问题的网络,提出基于神经网络注意力架构搜索的一种自动深度学习范式来处理光学遥感图像场景分类问题,节省人力和计算机算力;②针对遥感场景特征图在不同通道中稀疏排列的特点,提出具有通道注意力操作的搜索空间;③为增强架构搜索稳定性并提升搜索算法对注意力操作的适应性,提出两段式贪婪策略网络搜索方法;④针对各特征层中同源异构的场景语义信息,提出一种自上而下能融合3个阶段特征图的网络连接策略。

2 神经网络架构搜索基础

近年来,随着自动深度学习技术的发展,3种自动深度学习方法成为学界研究重点:自动特征工程9、元学习10、神经网络架构搜索11。其中神经网络架构搜索在图像分类和目标检测任务上取得了优秀的效果。神经网络架构搜索主要思想是通过智能算法从搜索空间取出构成神经网络的基础操作,使用一定的网络搜索策略取出操作,然后根据网络连接策略构成能完成特定任务的神经网络。这种智能的方法省去了人工从头构建网络和开发人员不断尝试调整网络参数的时间成本,极大地解放了科研人员在基础构建网络问题上的精力。

神经网络架构搜索算法主要有3部分技术流程(图1):搜索空间(Search space)、搜索阶段(Search phase)和评估阶段(Evaluate phase),搜索空间主要定义算法或智能体使用的操作(operation),这些操作构成一个组成神经网络的基础组成超图(Super Graph)。搜索阶段算法或智能体搭配和使用搜索空间的操作进行搜索最终构成基础单元,并根据网络连接策略连接基础单元成神经网络。在评估阶段使用各种搜索得到的基础单元完整使用神经网络在特定任务上,例如遥感图像场景分类问题在评估阶段输入遥感图像数据进行训练,在评估阶段结束时得到搜索获得神经网络架构的性能和准确率评价。

图1

图1   神经网络架构搜索技术流程

Fig.1   Neural network architecture search technical process


神经网络架构搜索算法根据搜索策略的不同分为3种:进化算法12、强化学习13、基于梯度的松弛化搜索14。进化算法主要通过编码网络操作和结构信息生成种群,通过遗传算法、进化算法等方式变异编码信息中的各种操作成为新种群,然后根据新种群解码文本信息复现网络并从头训练网络,依次循环变异直到获得满意网络。强化学习通过构建一个智能体生成神经网络信息,智能体从搜索空间中取出操作构成网络,使用评估策略对生成神经网络性能进行评估,然后智能体根据评估结果进行调整,最终获得效果不错的神经网络。基于梯度的松弛化搜索方法通过松弛搜索空间中的操作成一个超图,每个操作是超图中的一个边,对每条边赋予权重,训练每条边的权重并根据最终训练权重排序决定组成网络的所有操作。

由于进化算法和强化学习在重构神经网络和训练神经网络过程中,需要很大的计算机算力,目前神经网络架构搜索发展方向主要是基于梯度松弛化搜索方式,从梯度角度搜索网络的算力消耗最少只需要几块GPU。Xu等15通过修改梯度松弛化搜索方法的网络通道连接策略,对每阶段网络连接的通道进行随机采样,只取一半的通道通过网络操作进行运算,这样能减小一半以上计算开销,提升搜索速度和效率。Liang等16使用早停机制,在搜索过程中根据搜索方法提前停止搜索,解决了搜索时间过长导致网络跳跃连接过多,使搜索获得网络陷入局部最优而且网络特征提取能力差的问题。

3 神经网络注意力架构搜索方法

3.1 注意力搜索空间设置

实验根据遥感图像场景信息特点,为使搜索得到的网络具有综合多尺度物体和背景的能力,如表1所示,在搜索空间中引入通道注意力模块17。使算法能针对遥感图像类间和类内的差异提取重点语义信息,并且算法能智能地在卷积、池化操作的基础上自适应地在隐藏层合适的位置加入合适的注意力操作。

表1   注意力搜索空间操作及尺寸

Table 1  Operation and size of attention search space

操作尺寸
空洞卷积3×3、5×5
深度可分离卷积3×3、5×5
平均池化3×3、5×5
最大池化3×3、5×5
通道注意力操作1
无操作0
跳跃操作1

新窗口打开| 下载CSV


实验在神经网络架构搜索空间内引入通道注意力机制,如图2所示,通道注意力机制主要从通道维度进行全局平均池化和全局最大池化,提取通道数为C、长和宽为W和H的特征图各通道全局语义,然后对提取出的特征进行非线性激活,最终通过全连接层对特征图进行特征重组。通道注意力机制能挖掘各特征图在通道维度上的重要信息,增强对图像背景语义信息和各场景物体语义信息的关注。

图2

图2   通道注意力机制

Fig.2   Channel attention mechanism


对于搜索空间采用松弛化操作,将搜索空间所有操作松弛为超图中两节点之间的边,超图中的节点代表两操作输入特征图和输出特征图。本方法设置多个节点构成两种构成网络的单元:基础单元(normal cell)和下采样单元(reduction cell)。在搜索阶段主要是为了确定两种组成网络基础单元的各操作,利用梯度的反向传播训练每条边上各操作的权重,最终根据网络搜索方法确定每条边上最重要的权重,固定基础单元和下采样单元的所有操作。

基础单元和下采样超图松弛化构建计算公式如下所示:

o¯i,j(x)=oOexp(αoi,j)o'Oexp(αo'i,j)o(x)

其中: 将搜索空间(如表1所示)所有操作表示为O={o1,o2,o3,o4,...},利用softmax函数松弛化所有操作o在i节点到j节点的权重αoi,j,最终获得两节点间对特征图x的操作o¯i,j(x)。所有节点间操作从松弛化设置为超图到构建网络过程如图3所示。

图3

图3   松弛化操作超图和构成神经网络

Fig.3   Relaxation operation hypergraph and construct neural network


3.2 自上而下式网络连接策略

实验在神经网络架构搜索网络级联连接策略的基础上,提出自上而下式网络连接策略,针对遥感图像场景分类问题,融合浅层特征中小物体的语义信息,中层特征中大中型物体和局部背景语义信息和深层特征全局场景语义信息。重点关注遥感图像中场景与物体之间与对应类别的关系。具体实现为:从网络级增加网络特征融合操作,融合网络对浅、中、深三阶段特征语义。

在网络构建最终评估、测试阶段,采用本方法三阶段网络连接策略结合普通单元和下采样单元构成网络。以下采样单元分割网络为3个阶段,分别提取浅层、中层和深层特征语义。网络连接策略如图4所示。

图4

图4   自上而下式网络连接策略

Fig.4   Top-to-down network connection strategy


实验采用自上而下的特征融合策略,对浅层特征图进行下采样,然后将下采样获得的特征图与调整过通道的中层特征进行融合,之后对中层特征图和深层特征图重复以上操作,最终根据3层融合后的结果进行分类,自上而下网络架构设置如表2所示。

表2   自上而下网络架构设置

Table 2  Top down network architecture setting

特征层单元操作
浅层特征浅层普通单元通道重组、下采样
中层特征中层普通单元通道重组、特征融合、下采样
深层特征深层普通单元特征融合

新窗口打开| 下载CSV


自上而下的三阶段结构分别使用通道重组(Channel shuffle)、特征融合(Merge)、3×3卷积下采样(Down Sample)3种操作。

对浅层特征图使用通道重构后进行下采样操作,然后与通道重构后的中层特征图进行特征融合,浅层中层特征图融合的计算公式为式(2):

yM,L=yM*kM+DownSample(yL)*kL

其中:yM,L表示网络浅中层融合特征图;yM表示中层特征图;*表示二维卷积操作;kM表示对中层特征图使用1×1大小的通道调整卷积;DownSample(yL)表示3×3卷积步长为2的下采样操作;yL表示浅层特征图;kL表示对浅层特征图使用1×1大小的通道调整卷积。

然后对浅中层特征图使用下采样操作后与通道重构的浅层特征图进行特征融合,融合操作的计算公式为式(3):

yout=yH+DownSample(yM,L)

其中:yout表示网络深中浅层融合后网络输出特征图;yH表示深层特征图;DownSample(yM,L)表示3×3卷积步长为2的下采样操作;yM,L表示浅中层融合特征图。

3.3 两段式贪婪策略搜索方法

传统神经网络架构搜索方法随着搜索周期增加,网络算法会更倾向于选择跳跃连接和无连接。为解决上述问题本实验提出两段式贪婪策略搜索算法,在搜索过程中分阶段增加网络层数,并在各阶段结束时使用贪婪策略保留搜索空间中最合适场景分类任务的前几种操作。两段式贪婪策略搜索方法如图5所示。

图5

图5   两段式网络搜索策略

Fig.5   Two stage network search strategy


本方法在搜索阶段过程中,将搜索过程分为两个阶段:操作筛选阶段和单元固定阶段。在操作筛选阶段为了避免超图操作过多导致的参数量巨大,使用较少的普通单元和下采样单元构成层数较少的神经网络,对网络参数进行优化。训练阶段的参数有两种:网络权重w和操作权重α,这样搜索网络就成了一个二阶优化问题。搜索阶段训练环节如式(4)所示:

minwLtrain(α*(w),w)α*(w)=argminαLval(w,α)

其中:Ltrain为训练环节交叉熵损失函数,α*(w)为在网络权重为w时的固定架构权重α。搜索阶段验证环节为式(5):

minwLval(w*(α),α)w*(α)=argminwLtrain(w,α)

其中:Lval为验证环节交叉熵损失函数;w*(α)为在架构权重为α时的固定网络权重w。

在操作筛选阶段先在固定架构权重α1,通过Ltrain训练阶段损失函数反向传播优化网络权重w。然后再固定网络权重w,通过Lval验证阶段损失函数反向传播优化架构权重α1。依此循环直到第一阶段搜索结束,本方法根据架构权重α1的数值大小,使用贪婪策略取出最优的几个操作,设定为第二搜索阶段新的搜索空间和架构权重α2

在单元固定阶段使用和第一阶段同样的设置,循环搜索到第二阶段结束后,取出各节点间最优的架构权重α2对应的操作,以此固定全局超图的所有操作,得到最终的基础单元和下采样单元。

4 实验结果与分析

本节中,在3个标准公开数据集设置实验以验证本方法的有效性。首先介绍了实验数据集的设置;其次说明实验评估指标和超参数设置;最后与最新的一些方法进行比较,讨论本方法的优越性。

4.1 数据集

实验在3个标准公开数据集进行实验,如表3所示,标注数据集分别是:Aerial Image Data Set(AID)18、NWPU-RESISC45(NWPU)19、PatternNet data set(PatternNet)20。数据集训练比例设置与其他对比方法一致。

表3   标准数据集信息

Table 3  Standard dataset information

数据集每类图片数/张类别数/种全部图片数/张图片大小数据集年份年
AID220~4203010 000600×6002017年
NWPU7004531 500256×2562016年
PatternNet8003830 400256×2562017年

新窗口打开| 下载CSV


根据神经网络架构搜索特点在搜索和评估阶段对数据集使用不同比例设置,如表4所示。

表4   3个标准数据集上的实验设置

Table 4  Experimental setup on three standard datasets

数据集搜索阶段评估阶段
AID80%∶20%50%∶50%
NWPU80%∶20%60%∶40%
PatternNet80%∶20%50%∶50%

新窗口打开| 下载CSV


4.2 评价指标

实验使用两种评价指标验证算法和模型精度,总体分类精度和混淆矩阵。

(1)总体分类精度(Overall Accuracy,OA):全部分类正确的样本数占整体样本数的比例,计算方法如式(6)所示:

OA(%)=1Ni=1Nai

其中:N为数据集类别总数;ai为第i类数据的分类精度。

(2)混淆矩阵(Confusion Matrix,CM):在矩阵中表示预测正确和错误的类别数目或准确率,行和列分别代表预测类别和真实类别,对应元素反映了网络对物体的正确检测和错误检测的数量或准确率。

4.3 超参数讨论

(1)搜索设置:在搜索阶段使用两个优化器优化架构参数和网络权重,使用自适应矩估计算法(Adam)21优化网络架构参数,学习率设置为0.000 5,动量项设置中一阶动量项设置为0.5、二阶动量项设置为0.999,权重衰减系数为0.000 3。使用动量优化的随机梯度下降(SGD)的参数更新方法优化网络权重,学习率按照余弦退火学习率设置学习率从最高0.025衰减到最低0.001,余弦退火的1/4周期设置为每阶段总训练轮次,权重衰减系数为0.004。本实验均在python3.6.10上进行,硬件平台为Intel CoreIi7-8700CPU,GPU为两张显存为11 GB的NVIDIA GeForce GTX 2080Ti,内存为16 GB。

(2)评估设置:在评估阶段使用动量优化的随机梯度下降优化网络参数,余弦退火学习率按余弦规律设置学习率从最高0.025衰减到最低0.005,余弦退火的1/4周期设置为整个训练轮次。动量项设置为0.5。

(3)单元层数:神经网络架构搜索通过优化基础单元超图最终固定操作成一个网络基础单元,在网络层的1/3、2/3处设置下采样单元,剩余位置使用基础单元构成。不同的网络单元设置对网络的分类效果会产生较大的影响。实验通过设置消融实验,在AID数据集上按训练集:验证集4∶6设置,验证单元层数对网络准确率的影响。实验结果如表5所示,在10层时网络分类效果最好,达到92.83%总体精度,在单元层数增加和减少时网络分类效果开始变差。

表5   不同单元层数网络分类总体精度

Table 5  Overall accuracy of network classification with different cell layers

网络层数网络总体精度/%
991.80
1092.83
1291.98
1591.30
2090.80

新窗口打开| 下载CSV


(4) 两段式贪婪策略消融实验:实验设置两段式贪婪策略超参数,一阶段搜索轮次25轮,网络单元层数为7,网络通道数为16,一阶段结束丢弃3个操作。二阶段搜索轮次35轮,网络单元层数为10,网络通道数为20,二阶段结束保留各节点间架构权重最高的两个操作。本研究设置消融实验,在AID数据集上按训练集:测试集4∶6设置,在搜索阶段搜索网络基础单元。使用网络基础单元并在评估阶段按训练集:测试集4∶6设置对网络进行评估,验证两段式贪婪策略对网络准确率的影响。

搜索基础单元与下采样单元如图6所示,图中各操作如表6所示,搜索结果的总体精度如表7所示,由此看出,本实验与3种搜索策略进行对比,单段式搜索策略结果如图6(b)所示,在搜索末期会大量选择跳跃操作放弃使用注意力操作,这样严重影响分类准确率,使神经网络中有大量无用操作。单段式搜索策略使用早停后结果如图6(c)所示,获得了较好的分类效率91.8%,但是网络中仍有很多无用的跳跃操作。本方法搜索出的基础单元如图6(a)所示,构成网络取得最优分类效果92.83%。本实验会让搜索单元中注意力机制与跳跃连接同时使用,这样既保证两特征层之间单独使用注意力机制又减少跳跃连接,通过实验结果可以证明搜索策略的优异性。

图6

图6   AID数据集搜索单元结果

Fig.6   AID dataset search cell results


表 6   单元图操作对照表

Table 6  Cell operation comparison table

名称操作
none无连接
skip_connect跳跃连接
max_pool_3×33×3最大池化
avg_pool_3×33×3平均池化
sep_conv_3×33×3空洞卷积
sep_conv_5×55×5空洞卷积
dil_conv_3×33×3深度可分离卷积
dil_conv_5×55×5深度可分离卷积

新窗口打开| 下载CSV


表7   网络搜索策略总体精度

Table 7  Overall accuracy of network search strategy

网络搜索策略总体精度/%
单段式搜索策略(早停)91.80
单段式搜索策略(无早停)90.50
两段式贪婪策略92.83

新窗口打开| 下载CSV


4.4 标准数据集分类性能对比

讨论本实验方法和深度学习经典方法以及神经网络架构搜索最新方法之间的性能对比,评价标准为OA和CM。

(1)Aerial Image Data Set(AID)

表8所示,一些使用迁移学习的经典神经网络和经典神经网络架构搜索方法,在AID数据集上总体精度。在训练集比例50%时进行对比,本实验方法取得了最高的总体精度94.04%。与使用迁移学习的效果最高的手工设计神经网络Resnet-50对比,总体精度提高2.06%。与经典神经网络架构搜索算法DARTS对比,总体精度提升0.84%。同时表8中给出神经网络架构搜索算法与经典神经网络在训练时间和搜索时间上的对比,可以看出本算法在搜索速度为1.3 GPU-days超过经典算法DARTS。在评估阶段网络训练时间为0.6 GPU-days,训练速度接近VGG-16,这意味着本方法对各种全新数据集的适应能力强,构建网络速度快,同时构建的网络有较快的收敛速度。

表8   在AID数据集上总体精度

Table 8  Overall accuracy on AID data set

方法

50%训练集

比例OA/%

(搜索时间)训练时间

/Gpu-days

VGG-16(pretraining)[22]91.580.6
Resnet-50(pretraining)[23]91.980.9
GoogLeNet(pretraining)[24]89.690.7
DARTS[13](Early stop)93.20(2.1)0.7
Our Method94.04(1.3)0.6

新窗口打开| 下载CSV


通过混淆矩阵分析在AID数据集上实验结果如图7所示,分类准确率小于90%的样本类别分别是center、industrial、park、resort、school、square,在这几类图片中产生了错误分类情况,是因为个别图片有很强的类间相似性,通常会降低准确率。在这种情况下,本实验仍取得了最高的总体精度。

图7

图7   AID数据集50%训练样本混淆矩阵

Fig.7   confusion matrix of 50% training samples in AID dataset


(2)PatternNet Data Set(PatternNet)

表9所示,本实验前面已经在30类别数据集AID上证明了本算法的优越性。在PatternNet数据集,将场景分类类别提升到38类,并且图片总数提升到30 400张,增加少量数据类别和各类别图片数。与训练集比例50%进行对比,本文方法取得了最高的总体精度99.62%。与使用迁移学习总体精度最高的VGG-16神经网络对比,总体精度提高1.31%。与经典神经网络架构搜索算法DARTS对比,总体精度提升1.37%。

表9   在PatternNet数据集上总体精度

Table 9  Overall accuracy on PatternNet dataset

方法训练集比例50%OA/%
VGG-16(pretraining)98.31
Resnet-50(pretraining)98.23
GoogLeNet(pretraining)97.56
DARTS(Early stop)98.25
Our Method99.62

新窗口打开| 下载CSV


在PatternNet数据集上单元搜索结果如图8所示,可以看出本研究搜索策略充分利用了搜索空间中的各种操作,最终得到效果较好的网络基础单元。在PatternNet数据集上实验获得混淆矩阵如图9所示,在该数据集上每一类分类效果都在99%以上,只有harbor类别取得97%的准确率,其中有几张图片错分为ferry terminal分类。证明本方法可以很好地分辨该数据集不同类别的数据,并且本实验方法在各种方法对比中取得了最高的总体精度。

图8

图8   PatternNet数据集搜索基础单元和下采样单元结果

Fig.8   Results of searching basic cell and down-sampling cell in PatternNet dataset


图9

图9   PatternNet数据集50%训练样本混淆矩阵

Fig.9   Confusion matrix of 50% training samples in PatternNet dataset


(3)NWPU-RESISC45(NWPU)

表10所示,在NWPU数据集上增加场景类别到45类,并进一步提高各类图片数量。通过实验结果可以看出本方法在应对数据类别和数量不断增加的情形下,对遥感图像场景分类任务都能很好地适应。与最好效果的使用迁移学习手工设计神经网络Resnet-50神经网络对比,总体精度提升3.86%。与神经网络架构搜索算法DARTS对比,总体精度提升2.39%,均有较大的提升。

表10   在NWPU数据集上总体精度

Table 10  Overall accuracy on NWPU data set

方法训练集比例60%OA/%
VGG-16(pretraining)91.32
Resnet-50(pretraining)91.63
GoogLeNet(pretraining)89.42
DARTS(Early stop)93.04
Our Method95.49

新窗口打开| 下载CSV


图10所示,在NWPU数据集上搜索获得的基础单元也充分使用搜索空间中的各种操作,在测试阶段同样获得了最高的总体分类精度。

图10

图10   NWPU数据集搜索基础单元和下采样单元结果

Fig.10   Results of searching basic cell and down-sampling cell in NWPU data set


本实验方法在类别最高的NWPU数据集上实验得到混淆矩阵如图11所示,分类准确率小于90%的只有church和commercial area类别,church中个别图像被分类成parking lot类别,Commercial类别容易被分类为church,这是因为church中包含parking lot类别和commercial类别的局部语义信息。但本实验方法在其余类别都取得了很高的分类精度,特别对比其他方法取得了最高的总体分类精度。

图11

图11   NWPU数据集60%训练样本混淆矩阵

Fig.11   Confusion matrix of 60% training samples in NWPU dataset


5 结 论

实验提出一种适合遥感图像场景分类问题的神经网络注意力架构搜索方法,能较好应对遥感图像数据类别和数据量不断变化的问题,降低研究人员手工设计网络的时间成本和试错成本。同时,提出网络连接策略关注遥感场景图像特有的复杂背景和多尺度场景物体问题。实验结果表明,本方法能够稳定地构建适合遥感图像场景分类任务的注意力神经网络。同时,本方法在遥感图像场景分类任务上能获得与人工设计网络具有竞争力的效果。未来将从网络特征提取能力和网络特征复用能力出发,进一步提升网络对遥感图像特征的挖掘能力。

参考文献

TONG QingxiZHANG BingZHANG Lifu.

Advance in hyperspectral remote sensing in China

[J]. Acta Remotica Sinica, 2016205):689-707.

[本文引用: 1]

童庆禧张兵张立福.

中国高光谱遥感的前沿进展

[J].遥感学报,2016205):689-707.

[本文引用: 1]

GONG PengLI XiaXU Bing.

Some problems in the theory and application of high resolution image interpretation

[J]. Acta Remotica Sinica, 2006101):1-5.

[本文引用: 1]

宫鹏黎夏徐冰.

高分辨率影像解译理论与应用方法中的一些研究问题

[J].遥感学报,2006101):1-5.

[本文引用: 1]

CHENG GYANG CYAO Xet al.

When deep learning meets metric learning: Remote sensing image scene classification via learning discriminative CNNs

[J]. IEEE Transactions on Geoscience and Remote Sensing,2018565):2811-2821.

[本文引用: 1]

HAN XZHONG YCAO Let al.

Pre-trained alexnet architecture with pyramid pooling and supervision for high spatial resolution remote sensing image scene classification

[J]. Remote Sensing, 201798): 848.DOI:10.3390/rs9080848

[本文引用: 1]

ELSKEN TMETZEN J HHUTTER F.

Neural architecture search:A survey

[J].arXiv preprint arXiv:,2018.

[本文引用: 1]

XU RTAO YLU Zet al.

Attention-mechanism-containing neural networks for high-resolution remote sensing image classification

[J]. Remote Sensing, 20181010): 1602.DOI:10.3390/rs10101602

[本文引用: 1]

WANG QLIU SCHANUSSOT Jet al.

Scene classification with recurrent attention of VHR remote sensing images

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018572): 1155-1167. DOI:10.1109/tgrs.2018.2864987

[本文引用: 1]

YE LWANG LSUN Yet al.

Parallel multi-stage features fusion of deep convolutional neural networks for aerial scene classification

[J]. Remote Sensing Letters, 201893): 294-303. DOI: 10.1080/2150704x.2017.1415477

[本文引用: 1]

KAUL AMAHESHWARY SPUDI V.

Autolearn—automated feature generation and selection

[C]∥ 2017 IEEE International Conference on Data Mining (ICDM). IEEE2017217-226.

[本文引用: 1]

VILALTA RDRISSI Y.

A perspective view and survey of meta-learning

[J].Artificial Intelligence Review,2002182):77-95.

[本文引用: 1]

ELSKEN TMETZEN J HHUTTER F.

Neural architecture search: A survey

[J]. arXiv preprint arXiv:,2018.

[本文引用: 1]

REAL EAGGARWAL AHUANG Yet al.

Aging evolution for image classifier architecture search

[C]∥ AAAI Conference on Artificial Intelligence2019.

[本文引用: 1]

ZOPH BLE Q V.

Neural architecture search with reinforcement learning

[J]. arXiv preprint arXiv:, 2016.

[本文引用: 2]

LIU HSIMONYAN KYANG Y.

Darts: Differentiable architecture search

[J]. arXiv preprint arXiv:, 2018.

[本文引用: 1]

XU YXIE LZHANG Xet al.

PC-DARTS: Partial channel connections for memory-efficient architecture search

[J]. arXiv preprint arXiv:, 2019.

[本文引用: 1]

LIANG HZHANG SSUN Jet al.

Darts+: Improved differentiable architecture search with early stopping

[J]. arXiv preprint arXiv:, 2019.

[本文引用: 1]

HU JSHEN LSUN G.

Squeeze-and-excitation networks

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition20187132-7141.DOI:10.1109/cvpr. 2018.00745

[本文引用: 1]

XIA G SHU JHU Fet al.

AID: A benchmark data set for performance evaluation of aerial scene classification

[J]. IEEE Transactions on Geoscience and Remote Sensing,2017557):3965-3981. DOI:10.1109/tgrs.2017.2685945

[本文引用: 1]

CHENG GHAN JLU X.

Remote sensing image scene classification: Benchmark and state of the art

[J]. Proceedings of the IEEE, 201710510):1865-1883.

[本文引用: 1]

ZHOU WNEWSAM SLI Cet al.

PatternNet:a benchmark dataset for performance evaluation of remote sensing image retrieval

[J].ISPRS Journal of Photogrammetry and Remote Sen-sing,2018145197-209. DOI:10.1016/j.isprsjprs.2018. 01.004

[本文引用: 1]

KINGMA D PBA J.

Adam: a method for stochastic optimization

[J]. arXiv preprint arXiv:,2014.

[本文引用: 1]

SIMONYAN KZISSERMAN A.

Very deep convolutional networks for large-scale image recognition

[J]. arXiv preprint arXiv:, 2014.

[本文引用: 1]

HE KZHANG XREN Set al.

Deep residual learning for image recognition

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition2016770-778.

[本文引用: 1]

SZEGEDY CLIU WJIA Yet al.

Going deeper with convolutions

[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition20151-9.

[本文引用: 1]

/