伴随着城市高速的发展,建筑的拆毁与重建过程中产生了大量建筑垃圾。这些建筑垃圾除了部分被用于回填以及回收分类再利用之外,还会发生不规范的堆放,甚至随意乱倒偷倒等问题,其危害性不容忽视。由于缺乏规范的管理措施,在强风、暴雨等外界因素的影响下,这些不规范的建筑垃圾堆放点容易出现崩塌、阻碍道路等安全隐患;同时,建筑垃圾中的有害物质,如重金属等污染物也会造成生态环境的破坏。所以,建筑垃圾堆放点的有效监管刻不容缓。随着高分辨率遥感图像目标检测技术的发展,复杂场景下快速有效的深度学习检测算法,可以更有助于建筑垃圾堆放点监管。目前,影响深度学习检测算法准确性的一个重要因素是建筑垃圾堆放点训练样本集的手工制作困难。由于建筑垃圾堆放点形状不规则,分界不明显,纯粹手工制作的建筑垃圾堆放点样本集效率较低。由于城市中建筑垃圾堆放点数量较少导致数据量过少,难以支撑深度学习算法训练需求。如何高效制作样本集且进行有效的数据增强,是当前建筑垃圾堆放点深度学习检测中亟须解决的问题。
针对样本集的扩充,目前经常使用虚拟仿真技术、实测法、子样本集构建方法等。虚拟仿真技术,即使用物理引擎搭建场景以构建虚拟样本集,如杨壮[1]使用视口渲染的方法构建虚拟样本集。实测法,即采用实际测量手段扩充样本集的方法,鄢文苗等[2]在实测法样本中添加根据土壤环境质量国家标准生成的样本,从而扩大训练样本集。子样本集构建,即基于样本特征构建子样本集来扩展样本数量的方法,如陈泓佑等[3]设计了基于样本一阶颜色矩和清晰度的特征空间,通过改进概率抽样方法构建子样本集的方法,从而扩充了样本数量。
数据增强的常见方法有反射变换、翻转变换、缩放变换、平移变换等,但都无法满足构建样本集时数据多样性的要求。赵树阳等[4]提出了LR-GAN算法模型,用以进行非监督式的低秩纹理生成;牛斌等[5]结合RNN与GAN进行人体行为样本集数据增强;杨壮[1]提出了一种流水线方法用以数据增强,一是通过使用连通域处理方法保证样本集在数据增强后依然准确;二是使用多线程方法提高数据增强处理的效率,两者结合最终保证训练样本集准确且高效的扩充。
本文使用监督分类方法辅助人工进行目视解译,并结合自适应直方图均衡方法增强其纹理特征,完成建筑垃圾堆放点遥感图像样本集的构建。根据样本集特点,使用CS-LBP算子改进Wasserstein生成对抗网络的损失函数,并对模型结构进行优化以提高生成图像相似度与多样性;同时,使用迁移学习方法进行预训练,提高模型训练效率,最终生成样本以增强数据,满足了扩充建筑垃圾堆放点遥感图像样本集的需求。
整体研究流程如图1所示,遥感图像经监督分类、切割图像、直方图均值化等预处理后,进行生成对抗网络训练与测试,同时将开源样本集用于生成对抗网络迁移训练。生成图像与原始数据共同形成最终样本集。本文将主要介绍预处理过程中的核心方法,用于改进数据增强的生成对抗模型。
图1 整体流程
Figure 1 Overall flow diagram
1.1.1 监督分类
由于遥感图像一景数据的尺寸较大,且研究区内建筑垃圾分布散乱,无法实现每个地点逐一调研考察,目前实践中多是凭借经验选取建筑垃圾堆放点作为样本,准确性无法保证。而使用基于像素的监督分类技术,可以仅仅通过少量野外调查点,对遥感图像感兴趣样本区域上各像素类别属性进行判别,按一定规则给予每个像素最相似的类别属性。图像监督分类结果可作为人工判别及标注图像的参考资料。
通过对研究区建筑垃圾堆放点的目视解译,发现以下规律:植被容易和绿色防尘网混淆;裸地易与裸露的建筑垃圾混淆;建筑同样易与裸露的建筑垃圾混淆。所以对于遥感图像的监督分类,共分为水体、植被、道路、建筑、建筑垃圾堆放点及裸地6类。
本文监督分类采用最大似然方法。最大似然方法作为遥感图像分类中的常用方法,通过假设类别服从正态分布,统计先验概率与条件概率,结合贝叶斯理论最终判别像素归属类别。从原理上可以看作线性回归问题,在辅助人工目视解译的同时,监督分类结果中各类别边界分割情况可为网络模型改进提供先验知识。
1.1.2 直方图均衡化
虽然建筑垃圾本身有着明显的特征,但由于遥感图像颜色范围分布广泛,无法突出建筑垃圾诸如防尘网损坏后弧形纹理、防尘网覆盖堆体形状、非覆盖防尘网时呈花白颜色等特征。根据SWAIN等[6]提出的颜色直方图概念,通过统计图像颜色及其分布概率,可以反映图像中基本颜色分布规律。在直方图均衡化的基础上,自适应直方图均衡化将计算的范围从整体缩小为局部,即每个像素根据周边一定范围内的像素直方图进行均衡化,均衡方式同直方图均衡化。自适应直方图均衡化中局部区域的对比度会明显增加,可以有效地抑制均衡化过程中噪点的产生。
灰度直方图均衡化计算公式如下:
(1)
(2)
式中:px(i)为图像中灰度为i的像素的出现概率,像素值为i的图像的直方图归一化到[0, 1]。cdfmin为累积分布函数最小值;W和H分别为图像长与高方向上的像素个数;L为灰度级数;v为原始图像中的灰度。
自适应直方图均衡需首先将图像分解成单通道图像,然后选择需要参与直方图计算的通道和图像中各种颜色出现的概率。本文选用最常用的RGB颜色空间。由于网络模型输入端需要RGB三通道图像,在自适应直方图均值化后需将灰度图像与原始图像进行融合。
1.2.1 迁移学习
由于城市中建筑垃圾堆放点周边地物丰富,使得生成样本难度增大,为充分发挥生成对抗模型作用并提高效率,本文使用迁移学习的方法进行建筑垃圾堆放点样本生成。
迁移学习是运用已存在的先验知识对不同但相关领域问题进行求解的一种新的机器学习方法[7]。在领域适应问题中,JIANG等[8]提出了一种包含两阶段的特征选择框架;FANG等[9]研究迁移学习中协作分类的运用,试图将某些隐性结构特征从源模型迁移到目标模型。
基于特征选择的迁移学习方法,是通过识别出源领域与目标领域中的共有特征,然后进行知识迁移[10]。迁移学习过程中,若2个领域相似点越多,迁移学习的过程就越容易,反之相似点越少越困难,甚至可能出现“负迁移”[11]的情况。本文采用基于特征选择的迁移学习方法进行模型的预训练与数据集迁移训练,通过学习与目标数据相似的源数据特征,帮助WGAN模型进行高效特征提取,从而完成目标数据生成任务。
UC Merced Land Use Dataset遥感样本集[12]为加利福尼亚大学开源数据集,源自USGS国家地图城市航拍图像,分辨率约为0.3 m,精度高于高分二号样本集。该样本集分类较多,包括建筑、密集住宅、中型住宅、稀疏住宅、丛林、河流等21类常见土地利用图像,种类较多,且不同种类特征差异较大,可提高生成对抗网络模型对不同类型样本特征的学习能力。同时,样本集普适性强,精度高且拥有多种不同建筑物样本,加入建筑垃圾样本后可自主学习建筑与建筑垃圾特征差异,适用于拆房垃圾、工程垃圾等市区常见建筑与建筑垃圾共存区域,作为源数据有良好的可迁移性。为提高网络训练效率,将源数据中公园、道路、2类球场(高尔夫球场、棒球场)以及4类建筑数据按照2∶1∶2∶5的比例构成样本集,用来匹配目标样本集中植被、道路、裸地-建筑垃圾混合、建筑-建筑垃圾混合4类地物比例分布。
1.2.2 模型结构
生成对抗模型(generative adversarial networks GAN)[13]使用了对抗与学习兼顾思想,在生成数据领域应用广泛。GAN 模型的训练与传统的学习任务不同的是,传统的学习任务是根据标注过的样本集进行训练来学习如何分类或者回归,而GAN为无监督网络,无需进行研究目标标注,仅通过2个模型进行自主学习样本特点。GAN的2个模型为:用于生成图片的生成模型(Generator)以及获取数据分布的判别模型 (Discriminator),判别模型将判断某一图片是真实的还是生成的,2个模型互相对抗互相学习,最终完成生成任务。
由于原始 GAN存在训练困难、生成样本缺乏多样性等问题。本文使用Wasserstein 距离对抗生成网络模型(Wasserstein generative adversarial networks, WGAN)作为图像生成模型,并进行模型优化。WGAN采用 Wasserstein距离算法度量真实样本和生成样本分布之间的距离,代替GAN模型中JS 散度距离度量方法,并且取消sigmoid函数,解决了GAN 训练不稳定以及易崩溃等致命问题。
Wasserstein距离的定义为[14]:
(3)
式中:∏(PR,PF)是PR分布和PF分布组合出的所有联合分布的集合。对于每一个可能的联合分布,可以从中采样(X,Y)~γ得到一个样本x和y,‖x-y‖为这对样本的距离,通过计算在所有可能的联合分布中样本对距离的期望值的下界得到Wasserstein距离W(PR,PF)。
本文改进后的模型结构如图2所示,生成器增加一层全卷积结构用于增加网络的特征提取能力,各模型减小卷积层尺寸以提高模型生成与判别效率。改进后的模型生成器包含6层全卷积结构,每次通过随机噪点生成图像。判别器包含4层全卷积结构,输入数据为生成器输出图像或样本集中图像,输出结果为输入图像是真实图像的概率。判别器进行判断后,根据真与假图像特征差别,生成器与判别器参数将进行自动更新,并进行下一次生成与判断。模型训练结束,生成器输出图像将会尽量贴近样本集数据图像。
图2 模型结构
Figure 2 Model structure diagram
1.2.3 损失函数优化
为了提高生成图像的多样性,防止生成器梯度消失,本文选用具有光照不敏感性、灰度平移不变性和旋转不变性等特点的CS-LBP算子作为损失函数的约束项。LBP算子是较为常用且较为基础的局部纹理特征描述方法。CS-LBP[15]在LBP的基础上改变中心与周边像素值之间的运算规则,对图像编码时参考中心对称思想,可减少数据占用空间及计算时间。图像各像素点CS-LBP值计算公式如下:
(4)
(5)
式中:(N,R)为圆的邻域;R为圆周半径;N为该圆周上的像素点个数。
图像经CS-LBP编码后进行分块处理,而后统计各个分块的直方图并进行直方图归一化操作,最终连接直方图形成特征向量图,特征向量图如图3所示。
图3 CS-LBP特征向量图
Figure 3 CS-LBP eigenvector diagram
在生成对抗网络模型的损失函数中增加三通道CS-LBP算子约束,可有效约束生成对抗网络对局部颜色与纹理特征的选择。判别器模型损失函数LD仍使用原始WGAN模型损失函数,生成器模型损失函数LG在原始WGAN模型基础上增加CS-LBP算子,模型损失函数如下所示:
(6)
(7)
式中:IRLi与IFKi分别为原始图像与生成图像;Dθ(Ii)为判别器认为该图像为真的概率;N为一次输入图像的量;CSLBPRLi(x,y)与CSLBPFKi(x,y)为原始图像与生成图像各点各通道CS-LBP累加值。由于生成图像为RGB三通道彩色图像,CSLBPi(x,y)应为三通道各像素点CS-LBP值累加和,即CSLBPi(x,y)为:
CSLBPi(x,y)=22CS-LBPG(x,y)+
21CS-LBPB(x,y)+20CS-LBPR(x,y)
(8)
式中:G,B,R上标对应三色通道,鉴于建筑垃圾堆放点多为绿或蓝色,则对G通道加权最高,B通道其次,R通道次之。
本研究采用的遥感数据为高分二号L1A级数据,成像时间为2018年9月5日,共5景图像,数据包括全色波段和4个多光谱波段。影像预处理依次进行正射校正、图像融合和研究区裁剪等步骤。正射校正在ENVI 5.3软件中进行,均方根误差控制在1个像元以内;图像融合采用NN Diffuse Pan Sharpening(BIL)方法。图像裁剪尺寸为256×256。另外还使用UC Merced Land Use Dataset遥感样本集作为补充试验。
本研究监督分类可分离性均高于标准值1.9,但由于监督分类为辅助目视解译方法,精度暂不做评价与分析。监督分类后的遥感图像可进行多尺度裁剪,一般可选择建筑工地2倍大小进行首次裁剪,裁剪后根据监督分类结果图进行人工对照判断与筛选,之后再根据模型设置的样本尺寸(256×256)进行二次裁剪。5景遥感图像最后共选取1015张图像作为初始建筑垃圾影像样本集,并以此为源数据进行样本集的数据增强,初始建筑垃圾影像样本集如图4所示。
图4 建筑垃圾堆放点初始样本集
Figure 4 Initial sample set of construction waste dump
自适应直方图均衡化结果如图5所示。直方图显示图中各灰度区间的像素分布由原图的集中分布变为均匀分布,同时又保持了原图中多数像素灰度值较低的特性。图像整体的各灰度区间占比均匀,扩展了各像素的灰度区间范围,调整了图像整体对比度。并且自适应直方图均衡化还对分块后的区域直方图单独进行均衡化的处理,最后相邻的分块区域通过线性差值进行拼接,将基于全局的直方图均衡化操作变成分块局部操作,在调整整体灰度值的同时有效提升了局部区域灰度值相对关系,增强了纹理信息。
本文使用改进后的WGAN模型通过UC Merced样本集进行图像生成预训练,待模型可以模拟出细致的特征后,训练集换为高分二号图像从而进行模型的迁移。UC Merced样本集迁移至高分二号样本集的过程如图6所示。
图5 自适应直方图均衡化结果
Figure 5 Adaptive histogram equalization result chart
图6 迁移学习过程
Figure 6 Transfer learning process chart
图6所示的迁移过程为:首先由随机噪点生成少量色块与纹理,并进行纹理细化,这期间色块与纹理特征服从源数据规律,但色块与纹理在结果图像中分布随机;迁移后各区域根据目标数据集细化纹理与色块进行随机拼凑,满足目标数据纹理与颜色规律。同样3000次训练后,使用迁移后模型的高分二号数据结果纹理细腻,优于同样3000次训练的UC Merced数据结果。
本文改进WGAN模型生成样本结果如图7所示。
图7 模型生成结果
Figure 7 Model generation result chart
生成的图像模拟了原始数据特征分布规律与颜色信息,并在此基础上增加了不同的纹理组合,融入了其他图像颜色或纹理上的特点,从而生成了多特征的样本图,保证样本相似性的同时增强了样本的多样性。
本文选用图像相似性检验常用的均方误差与峰值信噪比来评价生成样本模型。
均方误差(mean squared error,MSE)是指估计值与真值之间差的平方的期望值,可以评价数据的变化程度。MSE 计算公式如下所示,MSE的值越小,说明预测模型描述实验数据具有更高的精确度。
(9)
式中:M、N为图像宽与高的像素点个数。
峰值信噪比(peak signal to noise ratio,PSNR)基于对应像素点间的误差,是衡量图像失真或噪声水平的客观标准,对于图像误差较为敏感。PSNR计算公式, PSNR值越大表示图像越相似。
(10)
通过寻找模型生成图片中与真实图片PSNR值最高的图像,对2种模型的生成图像进行相似度评价,如表1所示。可知:调整模型卷积层尺寸并在损失函数加入CS-LBP算子约束后,本文方法生成样本图像与原始图像的相似性有所提升。
表1 2种方法相似度对比
Table 1 Comparison of similarity between two models
原始WGAN本文方法PSNR10.4712.99MSE5838.723268.53
2种生成样本模型结果与原图CS-LBP直方图对比如图8所示。2种生成结果虽与原图PSNR值相差较大,但CS-LBP直方图各区域LBP值分布差异较小,侧面反映出CS-LBP算子对通过纹理规则判别而非像素对比,具有旋转、灰度不变性的特点,保证了图像多样性。使用CS-LBP作为约束项后,生成图片纹理在各值域范围内更加接近原图的纹理分布,在提升图像相似度的同时有效保证了图像多样性。
图8 各方法CS-LBP直方图对比
Figure 8 Histogram comparison of CS-LBP of each method
本文针对手工制作的建筑垃圾堆放点样本集效率低、数据量少,难以支撑基于深度学习的遥感图像目标检测算法训练需求的问题,通过将开源样本集用于迁移训练生成对抗网络,改进数据增强的生成图像模型,最终生成图像与原始数据共同形成最终样本集的方法,实现了样本集的高效制作以及有效的数据增强,满足了扩充建筑垃圾堆放点遥感图像样本集的需求。具体为:
1)使用监督分类方法辅助人工进行目视解译,以提高人工制作样本集的效率。并且使用自适应直方图均衡化对图像进行对比度调整,加强纹理特征,最终构建建筑垃圾堆放点样本集。
2)使用Wasserstein生成对抗网络进行图像生成,并在损失函数中加入CS-LBP算子作为约束项进行优化,平衡样本相似性与多样性。并且使用开源数据集进行基于样本迁移学习的模型预训练。最终实现了建筑垃圾堆放点样本数据增强,既保留了数据的原始特征,又增加了数据的多样性。
本文方法仍可在以下方面进行改进:
1)生成结果图像中,一些图像在继承一部分原始图像特点的同时,融入了其他图像颜色或纹理上的特点,生成了多特征的样本图,但这些特征的组合是否符合客观现实仍需验证与约束。
2)本文使用迁移学习方法仅进行了模型的直接迁移,并没有对参数与模型结构进行改进模型,后续研究可以尝试迁移后对模型进行二次改进。
[1] 杨壮. 面向Bin Picking的虚拟样本集构建及智能识别方法的研究[D].上海:华东理工大学,2019.
[2] 鄢文苗,任东,黄应平,等.基于SVM土壤重金属污染评价的训练样本集构建[J].武汉大学学报(理学版),2019,65(3):316-322.
[3] 陈泓佑,和红杰,陈帆,等.基于子样本集构建的DCGANs训练方法[J/OL].自动化学报:1-10[2019-10-09].https://doi.org/10.16383/j.aas.c180677.
[4] 赵树阳, 李建武. 基于生成对抗网络的低秩图像生成方法[J]. 自动化学报, 2018, 44(5):829-839.
[5] 牛斌,吴鹏,马利,等.一种基于生成对抗网络的行为样本集扩展方法[J].计算机技术与发展,2019(7):43-48.
[6] SWAIN M J, BALLARD D H. Color indexing[J]. International Journal of Computer Vision, 1991, 7(1): 11-32.
[7] 庄福振, 罗平, 何清, 等. 迁移学习研究进展[J].软件学报,2015, 26(1): 26-39.
[8] JIANG J, ZHAI C X. A two-stage approach to domain adaptation for statistical classifiers[C]∥The 16th ACM Conf. on Information and Knowledge Management. New York: ACM Press, 2007: 401-410.
[9] FANG M, YIN J, ZHU X Q. Transfer learning across networks for collective classification[C]∥The 2013 IEEE 13th Int’l Conf. on Data Mining, 2013: 161-170.
[10] DAI W Y, XUE G R, YANG Q, et al. Co-Clustering based classification for out-of-domain documents[C]∥The 13th ACM Int’l Conf. on Knowledge Discovery and Data Mining. New York: ACM Press, 2007: 210-219.
[11] DAI W Y, JIN O, XUE G R, et al. Eigentransfer: a unified framework for transfer learning[C]∥The 24th Int’l Conf. on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2009: 193-200.
[12] YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C]∥The 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, San Jose,USA, 2010.
[13] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.
[14] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[EB/OL]. https://arxiv.org/pdf/1701.07875.pdf. 2018-02-23.
[15] HEIKKIL M, PIETIK I, NEN M, et al. Description of Interest Regions with Local Binary Patterns[J].Pattern Recognition,2009,42(3):425-436.