基于深度学习的积雪覆盖区山地冰川识别研究

doi:10.11873/j.issn.1004-0323.2023.6.1251

基于深度学习的积雪覆盖区山地冰川识别研究

王晶晶^,¹, 柯长青^,¹, 陈军²

1.南京大学地理与海洋科学学院，江苏南京 210023

2.安徽建筑大学环境与能源工程学院，安徽合肥 230601

Research on Identification of Snow-Covered Mountain Glacier based on Deep Learning

WANG Jingjing^,¹, KE Changqing^,¹, CHEN Jun²

1.School of Geography and Ocean Science，Nanjing University，Nanjing 210023，China

2.School of Environment and Energy Engineering，Anhui University of Architecture，Hefei 230601，China

通讯作者: 柯长青(1969-),男,陕西丹凤人,教授,博士生导师,主要从事冰雪水文遥感研究。E⁃mail：kecq@nju.edu.cn

收稿日期: 2022-06-21 修回日期: 2023-09-21

基金资助:

国家自然科学基金重点项目. 41830105
青年科学基金项目. 41901129

Received: 2022-06-21 Revised: 2023-09-21

作者简介 About authors

王晶晶(1999-),女,安徽阜阳人,硕士研究生,主要从事深度学习冰川识别研究E⁃mail：mg21270085@smail.nju.edu.cn , E-mail：mg21270085@smail.nju.edu.cn

摘要

全球变暖导致冰川急剧退缩，及时的冰川监测和制图至关重要，而积雪覆盖一直是冰川识别的重要影响因素。以喀喇昆仑区域为例，选择春季Landsat-8 OLI、Sentinel-1和DEM数据，结合其光谱反射率、SAR散射以及地形等特征，基于不同主干网络的U-Net和DeepLabv3+深度学习方法，使用不同样本尺寸，不同特征组合进行冰川识别对比研究。结果表明：①对于256×256、512×512和1 024×1 024像素样本尺寸，训练样本尺寸越大，空间上下文信息越丰富，识别精度越高，冰川末端范围更为精确。②基于MobileNet、VGGNet、ResNet以及EfficientNet主干提取网络的U-Net语义分割网络中，VGG19主干网络识别精度最好，且优于DeepLabv3+网络结果，其F1值（F1-Score）为0.899 6，均交并比（Mean Intersection over Union，mIoU）为0.875 4，总体精度可达0.948 4，在山体阴影、冰雪融水、薄雾覆盖和冰冻湖泊区域识别效果均较好。③随着训练特征数量的减少，精度随之降低，地形特征对于提高冰川识别精确度作用显著，SAR特征则可提升召回率。研究证明了深度学习方法识别积雪覆盖的山地冰川的可行性，为山地冰川快速大面积识别的模型选择和参数设置提供了可靠的参考依据。

关键词： 山地冰川 ; 深度学习 ; 主干网络 ; 积雪覆盖 ; 喀喇昆仑

Abstract

Global warming results that glaciers retreat rapidly. Monitoring and mapping glacier boundary are extremely significant for research on global climate change and predicting related disasters. However， snow covering is the main barrier all the time. Selecting Karakoram subregion as study area， the Landsat 8 OLI， and Senitnel-1 images and DEM data in spring （March 24th， 2019） were utilized. The spectral reflectance of green， red， near-infrared and short-wave infrared bands in Landsat 8 OLI images were selected as the optical image features. The backscattering coefficient of VH polarization channel， the coherence coefficient of VV polarization channel， local incident angle， polarization entropy H and scattering Angle α after polarization decomposition were gained from SAR data and used as SAR features. Topographic features included DEM and slope. These characters were employed as input of models. First， based on U-Net model， experiments compared the accuracies using different-size samples. The 256×256-pixel-size samples were imported to U-Net network model based on different backbone networks （MobileNetv2， VGGNet， ResNet and EfficientNet） and DeepLabv3+ model. Finally， the best one among the above networks was employed to import samples with different feature combinations. Results show： ①Using the bigger training sample with the richer spatial context information can obtain the higher segmentation accuracy and the glacier terminal boundary is more accurate. ②Among the different backbone networks， VGG19 backbone network exhibits the highest accuracy， which is higher than that of DeepLabv3+. Its F1-value is 0.899 6， and the mean intersection over union（mIoU） is 0.875 4， and the overall accuracy is 0.948 4. The recognition effect of shadow， snow melt-water， mist covering and frozen lake area is comparatively good. ③With the decrease in the number of training features， the accuracy also drops. Topographic features can improve the precision rate， while SAR features can increase the recall rate by 4% or so. This study proves the feasibility of the deep learning methods on the identification of mountain glaciers covered by a large amount of snow and provides reliable basis on model selection and parameters setting for rapid and large-scale mountain glaciers mapping.

Keywords： Mountain Glacier ; Backbone Network ; Deep Learning ; Snow cover ; Karakoram

PDF (12468KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王晶晶, 柯长青, 陈军. 基于深度学习的积雪覆盖区山地冰川识别研究. 遥感技术与应用[J], 2023, 38(6): 1251-1263 doi:10.11873/j.issn.1004-0323.2023.6.1251

WANG Jingjing, KE Changqing, CHEN Jun. Research on Identification of Snow-Covered Mountain Glacier based on Deep Learning. Remote Sensing Technology and Application[J], 2023, 38(6): 1251-1263 doi:10.11873/j.issn.1004-0323.2023.6.1251

1 引言

冰川是冰冻圈的重要组成部分。除极地冰川外，其余冰储量集中在山地冰川上^［1］。山地冰川对气候波动极为敏感且响应及时，它也是干旱半干旱地区主要的水资源来源^［2］，了解其变化情况有助于研究全球气候及预测和避免相关灾害。

山地冰川位于遥远的高海拔地区，周围地形复杂，因此对于它的解译基本都是基于遥感和GIS技术，利用其光谱、温度^［3］、地形、纹理^［4］和极化^［5-6］等特征进行识别。最早的目视解译方法费时费力，且光学影像上由于裸地与表碛覆盖、季节性积雪与冰川的光谱相似性而难以区分识别^［7］。随后出现统计法识别冰川，如比值阈值法^［8］、（增强）雪盖指数法^［9］、Coherence相干性阈值法^［10］等都需要经验性阈值，且随研究区、研究时段的不同而不同，存在较大主观性。支持向量机、随机森林等传统机器学习方法^［11-13］的引入减少了人工参与，可以使用更多类型数据，处理更多特征，从而提高冰川的识别精度，但该方法也需要较多的先验知识。范慧颖等^［14］和钟鼎杰等^［15］对比了各种方法在山地冰川上识别效果，都发现神经网络方法进行冰川分类精度最高。

深度学习方法可以处理较为复杂的问题，同时充分利用日益增长的数据量。与传统的机器学习相比，深度学习可以自动提取深层特征及取得较高准确率，因此也开始被应用于山地冰川识别中。Xie等^［16］提出了一种识别山地冰川中表碛覆盖型冰川的网络结构GlacierNet，以Landsat-8 OLI和地形数据作为模型输入具有较高准确性；同时对比了包括GlacierNet在内的6种不同类型深度学习模型表碛冰川识别效果，发现DeepLabv3+的精度最高，GlacierNet次之，但GlacierNet相对是最适合于表碛冰川识别的轻量级网络^［17］。王忠武等^［18］提出一种上下文感知语义分割网络以解决云和山体阴影，结冰湖泊在山岳冰川识别中影响，对比得到Landsat 8影像冰川识别F1值可达0.866 5。而后张大奇等^［19］也针对山体阴影问题设计了在U-Net中集成金字塔模块的U-PSP-Net网络，增强了多尺度特征提取能力，效果较好。目前深度学习冰川识别主要研究南极冰架和冰盖^［20］、冰崩前沿^［21-24］和石冰川^［25-26］，山地冰川识别研究较少，使用的数据源主要为光学和地形数据。季节性积雪覆盖一直都是冰川识别中的重要阻碍因素，因此数据时间段主要选择夏季末期8~9月份或时序数据以减少季节性积雪影响；但受夏季季风影响，青藏高原复杂天气导致可用数据源较少。

因此，研究使用春季有大量积雪覆盖的Landsat-8 OLI数据，DEM数据以及全天时全天候、不受天气影响的合成孔径雷达（Synthetic Aperture Radar，SAR）数据，提取3种数据的11个特征，对比不同样本尺寸、不同主干（Backbone）网络模型以及不同特征组合的山地冰川识别效果，验证积雪覆盖时段山地冰川识别的可行性，同时比较出相对适合冰川信息提取和识别的样本尺寸及主干提取网络。

2 研究区和数据

2.1　研究区概况

喀喇昆仑区域位于青藏高原西北部，受印度洋季风和西风带的影响，夏冬季节降雨较多，且由西向东降雨减少，区域内有较多大规模的山谷冰川，是中纬度地区山地冰川最集中的区域^［27］。研究区为喀喇昆仑地区一景Landsat-8 OLI影像覆盖的子区域（图1）。根据RGI6.0（Randolph Glacier Inventory 6.0）数据显示（http：∥www.glims.org/RGI/），其内有冰川7 000余条，面积约8 526.71 km²，占研究区总面积的26.39%，其中代表性的有比阿佛（Biafo）冰川、巴普（Barpu）冰川、喜士帕尔（Hispar）冰川等。受区域气候差异、自身类型与规模、地形因素等的影响，冰川在其大小、几何和波动变化状态（跃动，前进和后退）上差异较大^［16］，且许多冰川表面覆盖着厚厚的、大范围的表碛，对于冰川自动或半自动化识别有较大影响。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 研究区地理位置及冰川分布

（右图底图为2019年9月24日Landsat 8 OLI影像654波段假彩色合成，蓝色为裸冰，叠加的黄色矢量边界为RGI6.0数据）

Fig.1 Location of study area and glacier distribution

2.2　数据及预处理

2.2.1　样本数据

绿光、红光、近红外和短波红外波段上冰雪的反射率存在明显差别，因此选用2019年春季3月16日Landsat-8 OLI影像中以上四波段作为光学特征，且选用9月24日夏季末期影像作为参考影像数据，上述两景影像云量均小于5%（表1），图2两景影像对比也突显出研究区在研究时段内有大量的雪覆盖，所有冰川上及其周围（除部分表碛外）基本都有雪覆盖，且研究区雪覆盖度约为80%。同时使用来源于美国地质调查局公开发布的，分辨率为1″（约为30 m）的SRTM高程数据及其计算的坡度值作为冰川识别的地形特征。

表1 Landsat-8 OLI影像数据信息

Table 1 Information of Landsat-8 OLI image data

影像ID	获取时间	云量
LC81490352019075LGN00	2019-3-16	2.55%
LC81490352019267LGN00	2019-9-24	1.1%

新窗口打开| 下载CSV

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 2景Landsat-8 OLI影像

（R：SWIR G：NIR B：Red，蓝色为裸冰/积雪覆盖区）

Fig.2 Two Landsat-8 OLI images

Sentinel-1卫星数据空间分辨率约为10 m，单星重访周期为12 d，A、B两星使时间分辨率缩短至6 d。包括超宽幅（Extra Wide Swath，EW）、干涉宽幅（Interferometric Wide Swath，IW）、条带（Stripmap，SM）和波模式（Wave，WV）等工作模式，数据主要类型格式有原始信号RAW、单视复数产品（Single Look Complex，SLC）和地距探测产品（Ground Range Detected，GDR）。研究表明冰川监测常用C波段SAR遥感数据^［13］，选用覆盖该区域且时间在Landsat-8 OLI影像时间点附近的4景IW模式，带有相位信息的SLC格式Sentinel-1 SAR数据（表2），经过处理，选择VH极化通道的后向散射系数、主辅影像干涉处理后VV极化通道的相干系数^［4］、局部入射角^［5］、极化分解^［28］后的极化熵H和散射角α作为SAR影像的特征（图3）。将所有数据重采样至同样栅格大小，并进行最大最小值归一化预处理，得到影像栅格尺寸为14 619×13 660像元。

表2 Sentinel-1影像数据参数

Table 2 Parameters of Sentinel-1 image data

主影像	辅影像	方向	轨道号	图幅号	极化方式
2019-3-15	2019-3-27	升轨	27	116	VV+VH
2019-3-15	2019-3-27	升轨	27	111	VV+VH

新窗口打开| 下载CSV

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 RGI边界及训练特征数据

Fig.3 RGI6.0 and training features data

2.2.2　标签数据

研究选用2017年发布的全球冰川边界数据库RGI6.0作为冰川真实边界，该区域大部分冰川边界由比值/雪盖指数提取，小空洞极多，输入模型前首先进行一定阈值大小的空洞填充，后转为与特征影像相同像元大小的栅格，同时将冰川区域值设置为1，背景设置为0，图4展示了具体样例。喀喇昆仑区域存在“喀喇昆仑异常”现象^［29］，冰川状态相对稳定，如图1右图所示，RGI边界与研究时段冰川范围总体上已符合较好。同时Xie等^［16-17］指出，卷积神经网络（Convolutional Neural Network，CNN）是一个基于区域的计算过程，冰川变化造成的像素级变化对模型影响甚小，且由于冰川表碛部分与周围地物难以区分，存在主观性的人工操作也会导致冰川边界缺乏可信性。样本的裁剪方式、数据量和分布情况在文4.1部分详细叙述。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 冰川样例及对应标签数据

Fig.4 Glacier sample and corresponding label data

3 深度学习模型

近年来，深度学习方法在各领域表现优异，特别是语义分割和图像分类等方面。基于像素分类的全监督语义分割网络大致分为DeepLab系列、基于编码器解码器的U-Net网络等、基于特征融合的PSPNet（Pyramid Scene Parsing Network）网络等等^［30］。由于图像分类网络出色的特征提取能力也被应用在语义分割的主干特征提取中。本研究主要探究和比较基于不同主干提取网络的U-Net和DeepLabv3+模型在冰川识别上的效果。

3.1　U-Net网络

U-Net^［31］网络结合了编码—解码结构和多尺度特征融合的方法（图5）。编码部分对影像上的多尺度特征进行提取，由5个3×3卷积层和步长为2的最大池化的编码块构成。解码部分利用上采样操作还原图像的空间维度和像素的位置信息，同时以3×3卷积压缩通道数。中间的跳跃连接结构可以弥补池化操作后边界丢失的像素。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 U-Net网络结构

（Feature指主干网络输出的，可与U⁃Net网络解码块跳跃连接的特征块）

Fig.5 Structure of U-Net network

3.2　DeepLabv3+

DeepLabv3+^［32］在众多物体识别分类中效果都处于领先地位。它也是编码器—解码器的结构，同时采用多尺度卷积层以提高分割准确率。编码器对主干网络提取的特征通过一个并行的1×1卷积、3个3×3卷积和一个平均池化组成的多尺度卷积层结构捕获特征的空间信息，后通过1×1卷积进行通道压缩。解码器首先对编码器提取的多尺度信息进行4倍双线性插值上采样，再与主干网络中提取的原始特征进行融合并进行3×3卷积，最后由4倍双线性插值得到分割结果。Chen等^［32］对比了Xception和ResNet101这2种主干提取网络，发现Xception作为主干网络的鲁棒性更好，因此，本研究也使用Xception-DeepLabv3+网络模型进行对比。

3.3　不同分类模型Backbone

3.3.1　MobileNet系列

MobileNet系列都是轻量化卷积神经网络，目前已有MobileNetv1、v2和v3，其中的MobileNetv2^［33］使用较多。MobileNetv2主要结构为“扩张”-“卷积提特征”-“压缩”的瓶颈（Bottleneck）结构，针对不同步长，Bottleneck有所不同。研究选用MobileNetv2中第一个3×3卷积和6个Bottleneck结构作为主干网络。

3.3.2　VGGNet系列

VGGNet^［34］系列模型主要探讨了深度对于网络性能的影响。通过堆叠3×3卷积层以提取图像中更多细小特征。通过使用连续的2个3×3卷积核代替5×5卷积核，3个3×3卷积代替7×7卷积等，卷积层激活函数为ReLU，每个卷积块后增加步长为2的2×2最大池化层以减小特征图大小。常用的结构有VGG16和VGG19。

3.3.3　ResNet系列

ResNet^［35］主要解决了由于网络层数变多引起的梯度弥散或梯度爆炸问题。由于层数不同，包括5种版本，18层和34层的ResNet进行两层间的残差学习，更深的网络ResNet50、ResNet101和ResNet152进行3层间的残差学习。此次研究选用其中的ResNet18、34和50等3种网络进行实验，为能与U-Net网络进行跳跃连接，将第一个操作中的7×7卷积层更换为2个3×3卷积层。

3.3.4　EfficientNet系列

EfficientNet^［36］探索增加网络卷积层数量，每个卷积块channel的数量以及图像分辨率对于识别精度的影响，由EfficientNetB0得到了基于它的EfficientNetB1-EfficientNetB7模型。EfficientNetB0模型主要组成结构为移动倒置瓶颈卷积结构（Mobile Inverted Bottleneck Conv，MBConv）模块，包括用于升维的1×1卷积（除MBConv1外），深度可分离卷积块、压缩与激发网络的注意力机制、1×1卷积和随机失活（Dropout）层。EfficientNetB7与B0结构的区别在于EfficientNetB7的channel维度上倍率因子为2.0，depth维度上倍率因子为3.1（仅针对MBConv模块）且MBConv模块中Dropout率从0递增到0.5。

3.4　模型训练、评价及预测

选择Keras深度学习框架搭建模型，硬件GPU为NVIDA GeForce RTX 2080Ti 11GB，运行内存64GB。网络最大迭代次数设置为100，学习率从0.01至0.000 01以3倍速率减小的方式调试每个模型，使用每3轮loss不下降则学习率减半的训练策略，并采用Adam优化器进行参数更新和计算，且损失函数选用二分类交叉熵函数，计算方法如式（1）所示：

l o s s = - \sum_{i = 1}^{n} y_{i} l o g {\hat{y}}_{i} + (1 - y_{i}) l o g (1 - {\hat{y}}_{i})

（1）

其中： $y_{i}$ 代表每个样本的真值； ${\hat{y}}_{i}$ 为每个样本的预测值。

研究基于混淆矩阵，采用精确率（Precision，P）、召回率（Recall，R）、F1值（F1-Score）、对2类别的交并比（Intersection over Union， IoU）求和平均得到的均交并比（Mean Intersection over Union， mIoU）、总体精度（Overall Accuracy，OA）和每轮训练时长指标进行评价。计算公式如式（2）~（6）所示：

P = \frac{T P}{T P + F P}

（2）

R = \frac{T P}{T P + F N}

（3）

F 1 - s c o r e = \frac{2 \times P \times R}{P + R}

（4）

I o U = \frac{T P}{T P + F P + F N}

（5）

O A = \frac{T P + T N}{T P + T N + F P + F N}

（6）

其中：TP表示将冰川部分正确预测为冰川的像素个数；TN表示将背景部分正确预测为背景；FP表示将背景错误预测为冰川；FN表示将冰川部分错误预测为背景。最后的整幅影像结果预测过程中，为防止内存溢出以及影像出现拼接痕迹，将影像裁剪为模型训练相同的样本尺寸，在裁剪和拼接影像时采用忽略边缘预测^［38］方法（图6），该方法可有效改善最终识别效果。本实验设置样本实际拼接部分a占实际裁剪区域A的比例为0.5。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 忽略边缘预测方法图示

Fig. 6 Sketch map of ignore-edges prediction

4 实验结果及分析

4.1　基于不同样本尺寸的U-Net模型冰川识别结果对比

为了探究不同样本尺寸对于冰川识别精度的影响，同时，受限于计算性能和单个样本的数据量，将样本分别裁剪为256×256、512×512和1 024×1 024像素尺寸，进行垂直翻转、对角翻转和图像放大的操作以扩增样本集，以6∶2∶2的比例随机分为训练、验证和测试数据集进行模型训练，得到的各样本尺寸精度见表3。

表3 基于U-Net网络的不同样本尺寸冰川识别精度

Table 3 Classification accuracies of glaciers among different sample sizes based on U-Net network

样本尺寸	P	R	F1值	mIoU	OA
256×256	0.896 2	0.867 6	0.881 7	0.853 7	0.937 8
512×512	0.912 2	0.871 2	0.891 2	0.864 9	0.943 2
1 024×1 024	0.883 2	0.898 6	0.890 8	0.869 2	0.948 7

注：加粗字体表示各列最优结果

新窗口打开| 下载CSV

样本尺寸越大则识别效果越好（表3）。对于512×512像素尺寸的样本，其冰川识别精确度最高，可达0.912 2，1 024×1 024像素样本尺寸的冰川召回率最高为0.898 6，但精确度却最低，总体精度最高。

从具体的识别效果来看（图7），随着样本的增大，识别效果中错分漏分减少，其中冰川末端识别更精确，空洞减少（图7第一行），对于积雪融水的错分减少（图7第三行红色方框标注所示）。主要是由于样本尺寸越大，纹理和空间上下文信息就越多，越能捕捉到更好的特征，训练的模型更加稳定，拼接痕迹也相应减少。但同时也意味着，计算开销增大，样本量的成倍减少，容易导致过拟合等。由于计算设备限制和模型的复杂性，以下实验均选用设备可以承受的256×256像素尺寸进行训练，影像裁剪得到的总样本量为3 132个，通过数据增强方式对样本进行有效扩充，最终得到的训练、验证和测试样本量分别为7 518、2 505和2 505。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 基于U-Net网络的不同样本尺寸冰川分类结果

Fig.7 Classification results of glaciers among different sample sizes based on U-Net network

4.2　不同深度学习模型冰川识别结果对比

在计算机视觉领域，整个任务的根本是提取图像特征，后续任务都是基于提取出的图像特征进行处理和分析的。本研究选取常用的CNN分类网络MobileNetv2、VGGNet、ResNet和EfficientNet作为U-Net网络的编码部分进行特征学习和表达，并与语义分割中表现优异的DeepLabv3+进行比较。

4.2.1　基于不同backbone的U-Net模型冰川识别效果

从表4结果看，MobileNetv2-Unet精确度和总精度均为最低，甚至低于原始的U-Net网络，将非冰川错分为冰川面积较大，该模型通过深度可分离卷积结构大大减少了参数量（2.82 MB），训练时长也最低，每轮运行时长不超过4 min，但其过于追求模型的简洁化而导致特征提取不够充分，识别效果最差，在冰川识别中不推荐。U-Net的精确度最高，而召回率为最低，表明其冰川漏分情况严重。分类效果最好的为VGG系列，其中主干层多3个卷积层的VGG19-Unet精度最高，可达94.84%，mIoU为0.875 2，虽然冰川识别的F1值低于ResNet34，但也基本持平，VGG16-Unet精度次之。EfficientNetB0-Unet精度略低于ResNet18-Unet但高于ResNet34和ResNet50-Unet。ResNet系列中ResNet18总体精度最高，但ResNet34的冰川F1值为最高（0.899 8），是ResNet系列中相对最为适合于冰川识别的主干网络。对比ResNet系列和Efficient-Net系列结果得到，随着网络层数的加深，总体精度反而降低。

表4 基于不同backbone的U-Net网络冰川识别精度

Table 4 Classification accuracies of glaciers using U-Net network based on different backbones

模型名称	参数量/MB	P	R	F1值	mIoU	OA	运行时长s/轮
U-Net	29.60	0.896 2	0.867 6	0.881 7	0.853 7	0.937 8	264
MobileNetv2-Unet	2.82	0.837 8	0.906 2	0.870 7	0.844 4	0.935 7	232
VGG16-Unet	95.00	0.883 4	0.908 2	0.895 6	0.871 0	0.946 8	275
VGG19-Unet	115.00	0.894 7	0.904 6	0.899 6	0.875 2	0.948 4	291
Resnet18-Unet	84.90	0.857 0	0.920 0	0.887 4	0.862 7	0.943 8	324
Resnet34-Unet	123.00	0.870 2	0.899 8	0.899 8	0.858 9	0.941 4	392
Resnet50-Unet	69.80	0.843 2	0.914 0	0.877 2	0.851 6	0.939 0	407
EfficientNetB0-Unet	54.50	0.888 5	0.889 7	0.889 1	0.863 0	0.942 7	257
EfficientNetB7-Unet	296.00	0.882 8	0.871 0	0.876 9	0.848 9	0.936 0	604

注：加粗字体表示各列最优结果

新窗口打开| 下载CSV

对于本研究的数据量，每轮运行时长MobileNetv2-Unet<U-Net<VGG-Unet<ResNet-Unet，VGG系列主干网络每轮所用时间不到5 min，ResNet系列每轮时长为5~8 min；EfficientNet增加网络深度、宽度后每轮时长达到了10 min。

由于模型较多，仅展示各类型主干网络中精度最高的网络识别结果（图8和图9）。从局部分类效果看（图8），MobileNetv2识别的冰川边界较为粗糙，错分较多，对于大型冰川会存在较多的空洞（图8（d））。原始U-Net和VGGNet、ResNet提取的冰川区域边缘平滑，视觉效果更为理想（图8（c）、（e）、（f）），结果更准确。EfficientNet系列网络结果中很多独立像素，边界粗糙，整体性较差（图8（g）），导致后处理工作繁琐，因此也不推荐用于冰川识别。由于训练的模型不够稳定，其识别效果也表现在拼接效果上，部分模型会存在明显的拼接痕迹。

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 基于不同Backbone的U-Net网络冰川分类结果

（（6）背景图为2019年9月24日Landsat⁃8 OLI影像654波段假彩色合成；第三至六行红色方框分别强调山体阴影、积雪融水、薄雾覆盖和结冰湖泊区域识别效果）

Fig.8 Classification results of glaciers using U-Net network based on different backbone

图9

新窗口打开| 下载原图ZIP| 生成PPT

图9 不同网络的前进和退缩型冰川识别结果

（（b）~（f）列背景图为2019年9月24日Landsat⁃8 OLI影像543假彩色合成图）

Fig.9 Classification results of advancing and retreating glaciers using different networks

山地冰川识别中最大的影响就是阴影。阴影会干扰或阻碍冰川的信息表达，进而导致难以从遥感影像上准确判别^［8］。但通过实验发现，山体阴影对于深度学习方法的冰川识别基本没有影响或影响很小，只是有些网络会出现一些空洞（图8第三行），这在后处理中可通过一定阈值进行填充。由于SAR穿云透雾的能力，对于具有薄云覆盖区域的冰川识别也不受影响（图8第五行）。对于结冰湖泊来说，ResNet和EfficientNet网络会存在将部分湖泊错分为冰川的现象（图8第六行），而仅VGG19-Unet不会将春季的积雪融水错分为冰川（图8第四行）。所有网络都对大型冰川识别效果好，而小型聚集冰川识别效果较差（图8第六行）。

实验发现，研究区较大、样本量较多时，网络模型也可将RGI6.0边界中待更新的前进型和退缩型冰川较为准确地识别出最新的边界范围（图9）。本研究仅选择一景Landsat-8 OLI影像进行样本训练，所以在各模型结果中，仅一部分的前进或退缩型冰川有较好的识别效果，可以通过扩大研究区，增大样本量的方式训练更具鲁棒性，泛化性能更好的模型以改善识别效果和精度。

4.2.2　DeepLabv3+模型冰川识别效果

DeepLabv3+模型冰川识别结果对比（表5）显示，基于Xception的DeepLabv3+效果优于U-Net，相比U-Net，其召回率较高而精确度较低。更换主干网络为VGG19后召回率和精确度都有提升，但识别效果仍然不及VGG19-Unet。且Xception-DeepLabv3+的参数量为VGG19-DeepLabv3+模型的2倍。从识别效果上看，DeepLabv3+采用编码器—解码器的结构和空洞卷积结构，使用不同规格的编码器来获得不同的更多丰富的上下文语义信息，识别的冰川边界相比MobileNetv2和EfficientNet系列更光滑。

表5 DeepLabv3+网络冰川识别精度

Table 5 Classification accuracies of glaciers using DeepLabv3+ network

模型名称	参数量/MB	P	R	F1值	mIoU	OA	运行时长s/轮
U-Net	29.60	0.896 2	0.867 6	0.881 7	0.853 7	0.937 8	264
VGG19-Unet	115.00	0.894 7	0.904 6	0.899 6	0.875 2	0.948 4	291
Xception-DeepLabv3+	158.00	0.884 6	0.877 8	0.881 2	0.853 9	0.938 4	357
VGG19-DeepLabv3+	79.00	0.884 7	0.884 5	0.884 6	0.857 9	0.940 3	247

注：加粗字体表示各列最优结果

新窗口打开| 下载CSV

总的来说，由于本研究为简单的二分类问题，且冰川识别主要依靠其纹理特征，因此普通的3×3卷积层结构和一定深度的卷积层对于冰川识别来说已经足够，过深或过于复杂的结构反而会影响识别效果，且容易造成过拟合从而降低模型泛化性能。基于以上模型比较结果来看，针对VGG系列模型作为backbone的U-Net识别效果最好，在实际应用中推荐使用该类型图像分割模型用于冰川范围提取。

4.3　基于VGG19-Unet的不同特征组合冰川识别结果对比

为了探究不同类型特征对于冰川识别的影响，使用上述实验效果最好的VGG19-Unet模型输入不同特征类型组合进行训练，精度结果如表6所示。

表6 基于VGG19-Unet的不同特征组合冰川识别精度

Table 6 Classification accuracies of glaciers among different feature combinations based on VGG19-Unet network

特征组合	P	R	F1值	mIoU	OA
光学	0.808 4	0.860 2	0.833 5	0.784 3	0.918 8
光学+地形	0.883 1	0.862 8	0.872 8	0.843 3	0.932 5
光学+SAR	0.869 4	0.895 6	0.882 3	0.854 5	0.938 2
光学+地形+SAR	0.894 7	0.904 6	0.899 6	0.875 2	0.948 4

注：加粗字体表示各列最优结果

新窗口打开| 下载CSV

仅光学特征的冰川识别精度指标均为最低，错分漏分严重，其F1值为0.833 5，总体精度仅91.88%。光学和光学+SAR特征组合加入地形特征约束后，冰川识别精确度分别提升7.47%和2.53%，可见地形特征对于降低错分率的重要性，冰川处于高海拔，通过DEM设定能够避免河流和湖冰等地物的影响，而坡度是辨别冰舌末端尤其是冰碛物与其他地物的有效特征指标^［7］。光学和光学+地形特征组合加入SAR特征后冰川召回率均提升4%左右，更多冰川主体部分被识别。光学+SAR特征的召回率高于光学+地形特征，精确度却相对较低，表明识别的冰川面积较大，但错分增多。总体来看，随着特征数量的增加，冰川识别精度提升，地形特征对于减少错分有重要作用。

从具体识别效果看，更多维度的特征训练出的模型提取了更为稳健的上下文信息，模型稳定，拼接痕迹明显减少。识别特征越多，对于表碛末端识别错分漏分减少，光学影像上积雪覆盖的表碛区光谱特征仍然与周围裸岩相似因而被错分为非冰川（图10第一行）。同样可以看到山体阴影对于深度学习方法冰川识别基本没有影响（图10第二行），使用VGG19-Unet网络在各种特征组合中也未将积雪融水和结冰湖泊错分为冰川（图10第三、四行）。部分薄云覆盖区域，由于光学影像没有穿透性，云覆盖区域光谱特征与周围冰川存在差异，分类结果中被错分为非冰川区域（图10~5（c））。作为模型输入的训练特征中，光学特征主要用于区分积雪/裸冰与周围裸岩和表碛，地形特征用于区分表碛部分（图3），同时作为阈值约束冰川所处的海拔高度和坡度范围。SAR数据特征中，后向散射系数特征用于判断地表物体的粗糙度、含水量等，双极化特征极化分解得到的极化熵和散射角反映了地物的表面散射和体散射特征。由于冰川（包括表碛部分）的流动性特性，一段时间内会造成干涉相干性降低或失相干结果，冰川轮廓可在相干性图中清晰呈现。这些同类型特征间或不同特征类型间会存在一定的相关性，但和Xie等^［16］阐述相同，即使存在较大相关性，但去掉某些特征后精度依然会受到影响。卷积神经网络有能力进行深层次复杂特征提取，但依据先验知识，在网络输入上增加地形和SAR数据类型的特征可以更好辅助冰川识别。有用的后处理可以帮助纠正错误分类，其优势比网络结构修改更能切合具体问题^［17］，可通过忽略边缘结果预测方法，空洞填充、边界平滑、消除独立像素和独立像素斑块的形态学操作，得到更完善的冰川边界。

图10

新窗口打开| 下载原图ZIP| 生成PPT

图10 基于VGG19-Unet网络的不同特征组合冰川分类结果

（第一至第五行红框分别强调表碛末端、山体阴影、积雪融水和薄雾覆盖区域识别效果）

Fig.10 Classification results of glaciers among different feature combinations based on VGG19-Unet network

5 结论

针对积雪覆盖的山地冰川识别问题，基于Landsat-8 OLI光学影像、地形数据和SAR影像得到11种特征，运用多种训练参数和多种深度学习网络进行试验比较，主要结论如下：

（1）对于256×256、512×512和1 024×1 024像素样本尺寸，样本尺寸越大，则包含的空间上下文信息越丰富，总体识别精度更高，冰川错分漏分少，完整性好。

（2）VGG系列主干提取网络效率较高，VGG19-Unet识别精度最高，且优于DeepLabv3+。MobileNetv2网络过于注重减少参数量来实现实时性，造成精度最低，不推荐用于冰川识别。而对于ResNet和EfficientNet系列主干网络，则呈现出卷积层越多，网络越深，反而精度下降的趋势。从识别精度、识别效果及运行时长角度综合评价得到，本试验的网络中VGG-Unet最适合于深度学习方法大面积冰川识别，后处理工作少，效率更高。

（3）虽然特征之间存在较大的相关性，但当特征数量减少时，精度会下降。地形特征在冰川识别过程中起到条件约束的作用，可以减少冰川错分，而SAR特征可提升冰川召回率，减少冰川漏分。

对于接下来的网络改进，可以基于本研究得到的网络识别结果，在卷积层后添加注意力机制（空间和通道注意力机制）。也可基于现有的网络结构更换卷积块，比如基于DenseNet^［38］的密集卷积块，减小参数量的深度可分离卷积，以及具有强大注意力机制功能的Swin-Transformer^［39］卷积块等。同时也可修改网络结构，比如使用2支不同的网络（双路）^［40］进行主干特征的提取。最后，可以综合多种模型的识别得到最终结果。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

WANG

Ninglian

， YAO

Tandong

， XU

Baiqing

， et al.

Spatiotemporal pattern， trend， and influence of glacier change in Tibetan plateau and surroundings under global warming

［J］. Bulletin of Chinese Academy of Sciences， 2019， 34（11）：1220-1232.