基于长短期记忆网络-卷积神经网络(LSTM-CNN)的北京市PM2.5浓度预测

于伸庭1 刘 萍1,2*

(1.上海交通大学 中英国际低碳学院,上海 200240; 2.上海交通大学 环境科学与工程学院,上海 200240)

摘要:准确预测PM2.5浓度可以有效避免重污染天气对人体带来的危害。现有方法往往重视本地历史信息对PM2.5浓度预测的影响,而忽略空间传输的作用。提出了一种长短期记忆网络和卷积神经网络(LSTM-CNN)相结合的方法,利用历史PM2.5浓度数据、历史气象数据和时间数据,对空气质量监测站未来6 h PM2.5浓度做出预测。该模型主要由2部分组成:1)基于长短期记忆网络的时序预测模型,模拟本地因素对PM2.5浓度预测的影响;2)基于一维卷积神经网络的特征提取模型,模拟周边地区污染物的传输与扩散对PM2.5浓度预测的影响。随机选取了北京市市区及郊区7个监测站在2014-05-01—2015-04-30期间的数据,用于研究和评估LSTM-CNN模型。结果表明:提出的LSTM-CNN模型相比于LSTM模型具有更好的预测效果,且对于郊区站点预测效果的改进略优于市区站点。

关键词:LSTM网络;CNN网络;PM2.5浓度预测;深度学习;时空数据

0 引 言

PM2.5是指环境空气中空气动力学直径≤2.5 μm的颗粒,是雾霾形成的主要原因之一。此外,PM2.5能够导致人体肺功能衰退及呼吸系统损伤,严重者甚至会死亡[1]。据统计,2015年,中国338个地级以上城市中,265个城市环境空气质量超标,空气质量平均超标天数比例为23.3%,超标天数中以细颗粒物(PM2.5)为首要污染物的天数占66.8%[2]。因此,对城市地区的PM2.5浓度进行模拟和预报尤为重要。目前关于PM2.5及其他空气污染物的预测方法主要有2类:基于空气质量模型和基于数据的方法。

基于空气质量模型(物理模型与化学机制)的方法主要通过研究雾霾形成的机理,以及污染物的传输和扩散过程,从而达到污染物浓度预测的目的。代表性的模型有社区多尺度空气质量模型(CMAQ)[3]、嵌套网格空气质量预报模式系统(NAQPMS)[4]、区域性气象和化学预报模型(WRF-Chem)[5]。空气质量模型全面考虑了影响大气污染物浓度变化的物理和化学过程,但其排放源、气象场和理化过程参数等输入数据具有不确定性,模型运算量大,运算时间较长[6]

相对于空气质量模型,基于数据的方法具有简单、高效且适用性广等特点,通过对历史数据的学习与分析,挖掘数据内在特征,并基于当前的状态对未来给出比较合理的预测[7]。其中,常见的模型有自回归滑动平均模型(ARMA)[8]、随机森林(RF)[9]、支持向量回归(SVR)[10]和人工神经网络(ANN)[11] 等。虽然以上模型已经应用于污染物浓度的预测中,但这些模型大多不是针对时序问题而设计的,因此近年来越来越多的学者开始研究将循环神经网络(RNN)应用于污染物浓度的预测[12],其中应用最广泛的是长短期记忆网络(LSTM)[13]。例如,Huang等[14]将目标监测站过去24 h的PM2.5小时浓度和气象数据作为LSTM的输入,预测该站点未来1 h的PM2.5浓度,并与6个典型的神经网络模型的预测结果做出比较;Liu等[15]利用一个地区的历史污染物浓度(O3、NO2、PM2.5)和气象数据,构建LSTM,对该地区未来1,4,8,12 h时的PM2.5浓度做出精细化的预测。

上述研究对PM2.5浓度的预测有一定的改进,但这些研究往往仅考虑一个站点自身的相关特征,预测该站点未来的污染情况。事实上,某一地区未来的PM2.5浓度,除了受本地历史情况的影响,还会受到来自周边区域的污染物传输的影响。因此,本文提出一种新型的LSTM-CNN网络(其中,CNN为卷积神经网络),为本地影响因子和空间影响因子共同建模,预测任意监测站未来6 h的PM2.5浓度。该网络主要基于以下数据训练:1)当前时刻和过去几小时的PM2.5浓度数据;2)当前时刻和过去几小时的气象数据;3)以上数据所对应的时间信息。其中数据1)、2)来自中心监测站及其空间维度上邻近的监测站(本研究中拟预测的监测站为中心监测站,其周边不同方位距离最近的4个监测站为其空间邻近监测站)。

1 研究数据和方法

1.1 研究数据

本文使用微软亚洲研究院城市大气项目的公开数据集[16-18],并从中选取北京市相关数据用于LSTM-CNN模型的研究。其中,北京市数据集共包含来自36个城市监测站的278023条小时级空气质量数据和来自17个区级气象监测站的116867条气象数据。其中,空气质量数据包含PM2.5、PM10、NO2、CO、 O3、SO2,气象数据包括天气、温度、压力、湿度、风速、风向。本文从北京市市区和郊区监测站中共随机选取了7个监测站在2014-04-30—2015-05-01期间的数据来评价本研究提出的LSTM-CNN模型,表1为各监测站的名称及其地理信息。7个监测站选址随机,且位于北京市不同的行政区,因此7个站点预测的平均水平很大程度上可代表模型在北京市PM2.5浓度预测问题中的整体表现。在使用的数据中,对于个别缺失的数据,通过线性插值法、前置填补法或后置填补法进行填补。

表1 监测站名称及其地理信息
Table 1 The monitoring stations and their geographic information

编号监测站名称经度/°E纬度/°N所属区域S1朝阳农展馆站116.4607439.937119朝阳区S2海淀万柳站116.2874539.987313海淀区S3东城天坛站116.4073639.886491东城区S4京西北八达岭站115.98840.365延庆区S5京东东高村站117.1240.1平谷区S6房山良乡站116.1360539.742767房山区S7京南瑜垡站116.339.52大兴区

1.2 长短期记忆网络

图1为LSTM网络的一个基本细胞单元,图中Ct-1ht-1是前一时刻细胞的细胞状态和隐藏层状态,xt是当前时刻的输入,Ctht是更新后的细胞状态(记忆单元)和隐藏层状态,也是后续细胞单元的输入。而细胞单元内部的门结构负责对细胞状态和隐藏层状态进行更新,门结构由3部分组成:遗忘门ft、输入门it和输出门Ot。前一时刻的细胞状态Ct-1通过遗忘门遗忘一部分信息,并通过输入门添加一部分信息得到输出门则负责控制当前时刻的隐藏层输出ht。有别于传统的RNN直接将ht-1作为历史状态的反映,LSTM网络通过细胞内部自循环的记忆单元,不断更新网络的隐藏层状态,在实践中证明有更好的时序处理能力及适用性。其相应的细胞更新过程为式(1)—(6):

ft=σ(Wf·[ht-1xt]+bf)

(1)

it=σ(Wi·[ht-1xt]+bi)

(2)

(3)

(4)

Ot=σ(Wo·[ht-1xt]+bo)

(5)

ht=Ot×tanh(Ct)

(6)

式中:WfbfWibiWcbcWobo为LSTM模型的参数,在训练过程中不断进行更新;σ和tanh为模型隐藏层的激活函数,负责提高模型的非线性表达能力。

图1 LSTM网络的细胞结构
Figure 1 The LSTM cell structure

1.3 一维卷积神经网络

一维卷积神经网络常用于处理时序问题,相比于传统ANN,一维卷积神经网络采用卷积核参数的权值共享和层间稀疏连接,可以减少参数数量,避免过拟合,且具有高级特征提取的能力。图2为一维卷积神经网络的卷积过程,其中x1x6为时序输入,o1o4为经过卷积操作之后的高级特征,图2中的卷积核由3根连线组成,每一根连线上有对应的权重值,整个网络共享此卷积核。

图2 一维卷积操作过程
Figure 2 The one-dimensional(1D) convolution operation process

1.4 LSTM-CNN网络预测模型

LSTM-CNN网络采用本地信息和空间信息分别建模的方式,主要原因是两种信息对PM2.5浓度预测有不同影响,本地信息提供本地污染物浓度随时间的变化规律,而空间信息则提供污染物浓度受周边污染物排放和传输而体现的变化规律。

图3为LSTM-CNN模型的网络结构。其底部xt,…,xt-R是当前时刻和过去R h测量得到的输入特征,主要包括:1)指定监测站(中心监测站)及其周边监测站的历史污染物浓度数据和区级的历史气象数据;2)中心监测站的时间数据。气象数据包括天气(晴天/阴天/多云/大雾等)、温度、湿度、压力、风速和风向信息,已有研究证明以上参数和PM2.5浓度有很强的关联性[19];污染物浓度数据为空气质量监测站的PM2.5浓度监测值;时间数据为输入数据所对应的工作日/周末信息及一天中的时刻信息。其中,为了方便计算机计算,时间数据全部以编码的形式表示,例如,(0,1)为工作日,(1,0)为周末,(0,0,0,1,0,…,0,0)为凌晨3点。

图3 LSTM-CNN网络结构
Figure 3 LSTM-CNN network structure

首先,将中心监测站历史数据输入到LSTM网络,利用LSTM网络较强的时序处理能力,模拟中心监测站的PM2.5浓度受本地因素影响而体现出的变化趋势,得到PM2.5浓度的初步预测结果。然后将空间邻近监测站的历史信息经过合并后输入到CNN网络,利用CNN网络较强的特征提取能力,模拟不同方位的污染物浓度和气象条件对中心监测站PM2.5浓度的影响,其输出结果与LSTM网络的初步预测结果共同输入到全连接网络进行微调后,得到最终的中心监测站未来6 h PM2.5浓度预测值。由于不同站点的PM2.5浓度受当地历史条件及周边地区的影响不同,因此在研究过程中针对每一个监测站分别建立模型。

LSTM-CNN模型采用修正线性单元(Relu)函数作为激活函数,在提高模型非线性表达能力的同时,有效避免了过拟合的发生;同时,为了加快模型训练速度,增强模型的稳定性,本文在最后的全连接网络后加入了批标准化(batch normalization,BN)层,用于重新调整隐藏层输出数据的分布;此外,本文所研究的PM2.5浓度预测问题属于回归问题,因此使用均方误差(MSE)作为模型的损失函数可以很好地反映模型的预测表现,其表达式见式(7):

(7)

式中:为PM2.5浓度预测值;yi为PM2.5浓度真实值;m为样本总数。

模型的创新性主要体现在以下2方面:1)利用LSTM网络和CNN网络各自的优点对本地历史信息和空间历史信息分别建模,在实现较好的预测效果的同时可以使模型具有可解释性;2)空间监测站的选取通过方位角和距离2个指标,不同方位分别取点可以保证周边污染信息的详尽,同一方位只选取距离最近的监测站是因为相对其他监测站更具有参考意义,且可以避免同一方位过多的监测站数据而导致模型过拟合。

为了定量评估模型的表现,本文采用3个评价指标对模型的评估结果进行量化,分别是均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R2)。其中,RMSEMAE反映模型预测值与真值之间的误差;R2反映模型预测值与真值之间的相似程度。3种评价指标表达式如下:

(8)

(9)

(10)

式中:为样本中PM2.5浓度真实值的均值。

2 结果与讨论

图4为LSTM模型和LSTM-CNN模型在S4站点(京西北八达岭站)2015-03-14—18期间的PM2.5浓度6 h预测效果,其中周边监测站数量n选定为4个,输入时序长度R为3。

—LSTM预测值; —LSTM-CNN预测值; ------监测值。
图4 LSTM和LSTM-CNN网络的6 h预测结果
Figure 4 Six-hour PM2.5 prediction result by LSTM and LSTM-CNN

可以发现该站点实际PM2.5浓度值在不断发生变化,全面考虑了本地历史数据的LSTM网络在预测中能捕捉到大多数的变化规律,然而LSTM网络无法捕捉到PM2.5浓度的突然变化(图4中03-16前后)。但是添加了空间信息的LSTM-CNN网络在极值点处的预测效果要明显优于前者,能够更好地捕捉到PM2.5浓度突然上升的趋势。

2种网络的3种评价指标统计如表2所示。可知:尽管2个模型都随时间的推移预测精度有所下降。但值得注意的是,在各小时的预测结果中,LSTM-CNN网络的预测表现都优于LSTM模型,呈现出更高的预测精度,从6 h平均预测水平中也可以发现相同的结果。

表2 不同网络的预测效果评估
Table 2 The prediction performance of different neural networks

时刻/hRMSE/(μg/m3)MAE/(μg/m3)R2LSTMLSTM-CNNLSTMLSTM-CNNLSTMLSTM-CNNt+121.7720.9212.9812.080.840.85t+227.9026.9117.1415.990.740.76t+332.4031.3520.6219.460.640.66t+436.1134.9723.4222.320.530.57t+538.5937.6225.5824.570.450.48t+640.7139.7227.4126.440.340.406h均值32.9131.9121.1920.140.590.62

图5为以RMSE为例,采用LSTM模型及LSTM-CNN模型在各个站点的预测表现。可知:综合考虑了本地历史因素的LSTM模型在各站点都给出较好的预测结果,RMSE值均在40以下。加入空间信息的LSTM-CNN模型的RMSE值在原有基础上进一步下降。从各站点的提升率(计算方法见式(11))也可看出:LSTM-CNN网络相对于LSTM网络在预测效果上有2%~4%的提升,表明LSTM-CNN可以有效地捕捉到空间传输对PM2.5浓度变化的影响。此外,郊区监测站点(S4—S7)的预测效果提升率略高于市区站点,这主要是因为郊区地势及土地类型相对简单[20],PM2.5排放源与市区相比也较少[21],有利于空间模型的建立。相反,市区由于受到较多的PM2.5排放源干扰,以及建筑物对微观气象条件的影响[22]等,空间信息建模的准确性受到影响。

RMSE提升率

(11)

LSTM; LSTM-CNN; —提升率。
图5 不同网络在各站点的RMSE值及LSTM-CNN网络相对于LSTM网络的提升率
Figure 5 RMSE values of both networks at each station and the improvement rates (RMSE) of LSTM-CNN over LSTM

3 结束语

本文首先利用LSTM网络和本地历史信息,建立PM2.5浓度的预测模型。然后在此基础上,提出了能够结合空间信息的LSTM-CNN网络,对北京市随机选取站点进行了应用和评估。从北京市整体的预测情况来看,综合考虑了本地和空间信息的LSTM-CNN网络各小时的预测表现都优于LSTM模型。从不同站点的预测情况来看,LSTM网络由于考虑了多种本地的历史信息,所以在各站点都给出较好的预测结果,而将空间传输影响考虑在内的LSTM-CNN网络在此基础上实现了2%~4%的RMSE提升率,且郊区站点由于受到较少的PM2.5排放源及微观气象条件变化等干扰,提升率略高于市区。鉴于本研究中站点选取过程随机,且模型所用数据不具有地域特殊性,因此,本研究所提出的模型具有一定的普适性。

参考文献

[1] KIOUMOURTZOGLOU M A,SCHWARTZ J,JAMES P,et al. PM2.5 and mortality in 207 US cities modification by temperature and city characteristics[J]. Epidemiology,2016,27(2): 221-227.

[2] 中华人民共和国环保部.2015中国环境状况公报[Z]. 北京:[2016-06-01].

[3] CHEN J J,LU J,AVISE J C,et al. Seasonal modeling of PM2.5 in California’s San Joaquin Valley[J]. Atmospheric Environment,2014,92: 182-190.

[4] WANG Z,MAEDA T,HAYASHI M,et al. A nested air quality prediction modeling system for urban and regional scales: application for high-ozone episode in Taiwan[J]. Water Air & Soil Pollution,2001,130(1/2/3/4): 391-396.

[5] SAIDE P E,CARMICHAEL G R,SPAK S N,et al. Forecasting urban PM10 and PM2.5 pollution episodes in very stable nocturnal conditions and complex terrain using WRF-Chem CO tracer model[J]. Atmospheric Environment,2011,45(16): 2769-2780.

[6] LI X,PENG L,YAO X J,et al. Long short-term memory neural network for air pollutant concentration predictions: method development and evaluation[J]. Environmental Pollution,2017,231(1): 997-1004.

[7] 陈宁,毛善君,李德龙,等. 多基站协同训练神经网络的PM2.5预测模型[J]. 测绘科学,2018,241(7): 87-93.

[8] BOX G E,JENKINS G M. Time series analysis: forecasting and control rev. ed[J]. Journal of Time,1976,31(4): 238-242.

[9] 侯俊雄,李琦,朱亚杰,等. 基于随机森林的PM2.5实时预报系统[J]. 测绘科学,2017,42(1): 1-6.

[10] GARCA NIETO P J,COMBARRO E F,DEL COZ DAZ J J,et al. A SVM-based regression model to study the air quality at local scale in Oviedo urban area (Northern Spain): a case study[J]. Applied Mathematics & Computation,2013,219(17): 8923-8937.

[11] HOOYBERGHS J,MENSINK C,DUMONT G,et al. A neural network forecast for daily average PM10 concentrations in Belgium[J]. Atmospheric Environment,2005,39(18): 3279-3289.

[12] YU F,ZHANG W F,SUN D Z,et al. Ozone concentration forecast method based on genetic algorithm optimized back propagation neural networks and support vector machine data classification[J]. Atmospheric Environment,2011,45(11): 1979-1985.

[13] ZHAO J C,DENG F,CAI Y Y,et al. Long short-term memory-Fully connected (LSTM-FC) neural network for PM2.5 concentration prediction[J]. Chemosphere,2019,220: 486-492.

[14] HUANG C J,KUO P H. A deep CNN-LSTM model for particulate matter (PM2.5) forecasting in smart cities[J]. Sensors,2018,18(7): 2220-0000.

[15] LIU X D,LIU Q,ZOU Y Y,et al. A self-organizing LSTM-based approach to PM2.5 forecast[C]//International Conference on Cloud Computing and Security.ACM,2018.

[16] ZHENG Y,LIU F R,HSIEH H P. U-Air: when urban air quality inference meets big data[C]//Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2013.

[17] ZHENG Y,CAPRA L,WOLFSON O,et al. Urban computing: concepts, methodologies, and applications[J]. Acm Transactions on Intelligent Systems & Technology,2014,5(3): 1-2.

[18] ZHENG Y,YI X W,LI M,et al. Forecasting fine-grained air quality based on big data[C]//Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.ACM,2015.

[19] SU X,GOUGH W,SHEN Q.Correlation of PM2.5 and meteorological variables in Ontario cities: statistical downscaling method coupled with artificial neural network[C]//Longhurst J W S, Brebbia C A,Barnes J.24th International Conference on Modelling, Monitoring and Management of Air Pollution,Greece,2016:215-226.

[20] 张佳华,侯英雨,李贵才,等. 北京城市及周边热岛日变化及季节特征的卫星遥感研究与影响因子分析[J]. 中国科学:地球科学,2005,35(增刊1): 187-194.

[21] ZHANG Y X,ZHANG Y M,WANG Y S,et al. PIXE characterization of PM10 and PM2.5 particulate matter collected during the winter season in Shanghai city[J].Journal of Radioanalytical & Nuclear Chemistry,2006,267(2): 497-499.

[22] 王清川,周贺玲,许敏,等. 河北省廊坊市大气污染扩散气象条件影响分析[J]. 防灾科技学院学报,2014,16(3): 1-8.

LONG SHORT-TERM MEMORY-CONVOLUTION NEURAL NETWORK (LSTM-CNN) FOR PREDICTION OF PM2.5 CONCENTRATION IN BEIJING

YU Shen-ting1, LIU Ping1,2*

(1. China-UK Low Carbon College,Shanghai Jiao Tong University,Shanghai 200240,China;2. School of Environmental Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)

Abstract: The prediction of PM2.5 can effectively prevent people from the harm by heavy pollution. However, the existing methods often emphasize the influence of local historical information and neglect the effect of spatial transport. In this paper, we proposed a method, called as long-short-term memory-convolutional neural network (LSTM-CNN), to predict PM2.5 concentration of a specific air quality monitoring station over 6 h using historical PM2.5 concentration data, historical weather data, and time stamp data. The model consisted of two parts: 1) using long-short-term memory networks to model the local variation of PM2.5 concentrations caused by local factors; 2) using one-dimensional convolutional neural networks to model the variation of PM2.5 concentrations caused by spatial transport. We randomly selected 7 monitoring stations in urban and rural areas in Beijing from May 1st 2014 to April 30th 2015 to conduct the evaluation of LSTM-CNN model. The results showed that the proposed LSTM-CNN model could provide a better prediction result than LSTM model, and a better result for monitoring stations in rural areas than those in urban areas.

Keywords: LSTM;CNN;prediction of PM2.5 concentration;deep learning;spatiotemporal data

DOI:10.13205/j.hjgc.202006029

收稿日期:2019-09-25

基金项目:国家自然科学基金面上项目(41975152)。

第一作者:于伸庭(1995-),男,硕士,主要研究方向为大数据分析与数据挖掘。sjtu_yust@163.com

*通信作者:刘萍(1976-),女,博士,主要研究方向为气溶胶形成机制及空气质量的模拟与预测。ping_liu@sjtu.edu.cn