第28卷第1期 洛阳理工学院学报(自然科学版) Journal of Luoyang Institute of Science and Technology(Natural Science Edition) Vol_28 No.1 Mar.2018 2018年3月 基于主成分回归的洛阳市区PM2.5污染状况研究 田玉柱,李景美,刘蒙蒙,王 军 (河南科技大学数学与统计学院,河南洛阳471000) 摘要:为了探究影响洛阳市区PM2.5的主要因素,对PM10、AQI中其他监测指标、月平均温度等进行主成分 回归分析。首先对数据进行标准化处理,通过主成分分析得到3个主成分变量;其次对它们与PM2.5进行逐步 回归分析,得出0 、PM10和CO对PM2.5影响显著;最后,针对这几个影响因素,对洛阳市环保部门提出合理 性建议。 关键词:PM2.5;主成分回归;逐步回归 DOI:10.3969/j.issn.1674—5043.2018.01.017 中图分类号:O213 文献标识码:A 文章编号:1674—5043(2018)01—0084—05 近年来,随着经济和社会的高速发展,我国工业化和城市化水平不断提高,雾霾问题正演变为我国 城市大气污染的主要灾害之一。随着洛阳市城市规模扩大、旅游业和工业迅速发展以及机动车辆猛增, 使得悬浮细颗粒物PM2.5大量增加…。洛阳环保部门在官方网站公布的数据显示,2016年1月4日 PM2.5曾经达到了879,污染问题亟待解决。 近些年学者对PM2.5、PM10有不少研究,主成分回归分析法也灵活运用于研究中。王秦等人 用感 耦合等离子体质谱分析了PM2.5与空气中36种元素含量的关系并将它们进行分级;金涛等人_3 运用改进 后的主成分回归分析法对产品外观进行评价;王翠云等人 应用主成分分析和多元回归分析法对空气质 量指数(AQI)进行综合分析。张延军等人 运用主成分回归分析法研究烟叶评吸质量指标与外观质量指 标的关系。 本文运用多元回归分析和主成分回归方法,对洛阳市区2013年11月到2016年8月AQI、月平均温 度的数据进行分析,通过探究PM2.5与其他大气污染物PM10、SO 、CO、NO 、O 及月平均温度之间的 关系,对空气污染状况进行有效评估,研究污染成因,提出有效防治措施。 1模型简介 1.1多元线性回归模型 设随机变量Y与一般变量 , …, 的线性回归模型为 : Y:卢0+卢1 1+卢2 2+… +卢p p+ 。 式中:Y是被解释变量, , :…, 是P个可以精确测量并可控制的一般变量,称为解释变量。因变量Y由 两部分组成:一部分是误差项随机变量 ,另一部分是P个自变量的线性函数卢。+ 。 。+卢: +…; 是随机误差。 + 1.2主成分回归模型 分析多指标的问题,运用主成分分析方法对其进行降维,被普遍应用于各行各业的学术研究中。主 成分分析是先确定研究问题、选定变量,再选取几个线性无关且包含极可能多原始变量信息的新变量来 替换原始变量 。 收稿日期:2017—12—10 作者简介:田玉柱(1982一),男,甘肃陇南人,博士,讲师,主要从事应用统计方面的研究 基金项目:国家自然科学基金项目(11501167). 第1期 田玉柱等:基于主成分回归的洛阳市区PM2.5污染状况研究 (1)对原始数据进行标准化 。消除不同变量量纲的影响,含P个指标的样本矩阵X=( 。 ) , i=1,2….,n, =1,2,…,P的标准化值为: ={ ,E( 。)= 。,Ear(Xi)= 。 。R是实对称矩阵(即r‘ = )。 在SPSS软件中的实现过程“分析一描述统计一描述一将标准化得分另存为变量”。 (2)计算相关系数矩阵。r ( √=1,2,…,P)为原变量的 与 ,之间的相关系数,设变量 , …, Xp的n次观测数据阵X已标准化,其计算公式为:R= (3)计算相关矩阵R的特征值与特征向量。首先解特征方程:『 一A,『=0,求出特征值A。≥A ≥….,≥A ≥0,a ,a …a 为相应的单位正交特征向量。 (4)计算主成分贡献率及累计贡献率,确定主成分。主成分互的贡献率、累计贡献率分别为 k=I ∑A ∑A 一般取累计贡献率达80%~85%的特征值A ,A:….,A 所对应的第1,第2,…,第t/l,(m≤P)个主 (5)建立主成分特征函数。 (6)使用主成分进行多元回归。计算因子得分,构建主成分回归方程。令Y为因变量,多个因子 成分。 Fac。,Fac …,Fac 为自变量,建立多元线性回归模型: Y=/30+/3lFac1+ 2Fac2+…+IB Fac 。 再以Fac。,Fac:….,Fac 为因变量,分别与原来的P个自变量建立多元线性回归模型,得到最终的Y 与m个自变量的主成分回归模型。 2洛阳市PM2.5污染状况的影响评价 2.1数据来源及预处理 对洛阳市区2013年1 1月到2016年8月AQI数据、月 平均温度进行分析,探究PM2.5与PM10、SO:、CO、NO 、 O 、月平均温度这6个因素之间的关系 。通过SPSS软件 进行数据的统计分析¨ 。 令Xl:变量PM10; 2:变量SO2; 3:变量CO; 4: 变量NO ; :变量O3; 6:变量月平均温度; …… 为标准化的变量。PM2.5与PM10、SO2、CO、NO2、O3、 月平均温度这6个因素之间的散点矩阵图如图1所示。 由图1可知各因素对PM2.5的影响呈现线性递增或递 。 。 o 多。 籼 奄 建。 《 誉 。 。 、 甄。 营 嘞 岛 萼 减趋势,由于各因素之间也可能在大气中发生化学变化变成 其他物质,故同时需考虑各因素间的交叉作用及平方项对 PM2.5的影响。 墓 鑫o .图1各指标之间的散点矩阵图 2.2多元线性回归的统计分析 对影响的各因素、各因素间的平方项及交叉作用共27个变量再次进行回归分析。通过SPSS软件 “分析一回归一非线性”对多元线性回归模型进行参数估计,并进行参数估计值的显著性检验以及模型拟 合优度检验。该多元线性回归模型的拟合优度为R =0.996,P=0.000通过检验。因此,从整体上看, 86 洛阳理工学院学报(自然科学版) 第28卷 可以用多元线性回归进行分析PM2.5的各因素、 各因素问的方项及交叉作用平之间的关系。多元线 性回归模型的回归系数估计值结果如表1所示。由 表1 多元线性回归的系数估计值及95%置信区间 表1多元线性回归模型的系数估计值及置信区间 表可知,在检验它们的估计区间时发现只有回归系 数卢。、 。 、卢。 、/3。 、卢。 的置信区间不包含零 点,其他的回归变量对Y的影响不显著,因此本文 尝试用主成分回归分析方法对模型进行修改。 2.3主成分回归统计分析 对样本数据进行主成分回归分析。首先对数据 进行标准化处理,SPSS过程“分析一描述统计一 描述一将标准化的得分另存为变量”;其次,对样 本数据进行主成分分析,SPSS过程为“分析一降 维一因子分析一主成分”,得到主成分回归解释的 总方差结果如表2所示。 由表2可得前三个的主成分的累计贡献率已经 达到87.387%,说明前三个能解释原自变量总方 差约87%的信息,已足够对PM2.5进行分析及预 测,因此可以提取前三个对洛阳市的PM2.5含量 进行综合评价。首先进行KMO和Bartlett的检验, 检验结果如表3所示。 由表3主成分回归的KMO和Bartlett的检验结 果,可得该模型的KMO统计量值为0.704,KMO 值接近1,说明所有变量问的简单相关系数平方和 远远大于偏相关系数平方和,意味着变量问的相关 性强,原有变量适合作因子分析,检验通过。其次 用主成分的成份矩阵前三列分别除以前三个特征值 的平方得到前三个主成分的成份系数矩阵,结果如 表4所示。 从表4主成分回归的成分矩阵来看,第一主成 分主要是PM10、SO 、CO、NO 、O 、月平均温 度PM10的平方项、PM10与SO:的交叉项、PM10 与CO的交叉项、PM10与NO 的交叉项影响;第 二主成分主要是PMIO与O 的交叉项影响,第三 主成分则不明显。最后进行主成分回归时,需先分 表2主成分回归解释的总方差 析y与F ,F:,F3之间的关系,绘制散点矩阵图如 图2所示。 由图2可知,Y 与F 、F:、F 之间具有线性 关系,因此再用SPSS软件对F 、F:、 回归分析,在建立y 与F 、F 、 表3主成分回归的KMO和Bartlett的检验 取样足够度的Kaiser—Meyer—Olkin度量0.704 进行逐步 的多元回归方 程的过程中,按偏相关系数的大小次序将F 、F:、 逐个引入回归方程,对引入方程中的每个白变 量偏相关系数进行统计检验,效应显著的自变量留 第1期 田玉柱等:基于主成分回归的洛阳市区PM2.5污染状况研究 87 表4主成分的3个成份系数矩阵 霸。 o ∞ o o o 睁 。 o 黪 熬∞ o 。 蟹 e o o : 。 o o : 辩 zscore(y) FI 图2 Y 与,,, , 的散点矩阵图 在回归方程内,由于 对】, 的效应不显著, 故剔除,最后建立y 与F 、F 的回归方程,SPSS 过程“分析一回归一线性”,主成分回归模型结果 如表5所示。 表5 主成分回归的系数估计及系数显著性检验 由表5可知,标准化的PM2.5对前两个主成分 的线性回归模型通过显著性检验(R =0.816, P=0.000),从而回归方程是高度显著的,对F 、 , 的检验结果P值分别是0.000、0.005可得出个解 释变量F.、 对y 的影响是显著的,综合分析得到主成分回归方程为:Y :0.211F,+0.106F2。 引入F 、F 的表达式,得到标准化 关于标准化自变量的回归方程: Y =1.36x1+1.39x2+0.25x3+1.00x4+1.46x5+1.40x6+0.98x +0.67xl 2+1.34xl 3+ 1.02xl 4+2.04x1 5+1.05xl 6+1.05x +1.06x2X3+1.08x2 4+1.90x2 5+1.13x2 6十1.15x;+ 1.18x3 4+1.88x3 5+1.10x3 6+1.19x +2.20x4 5+1.2Ix4 6+1.21x;+1.24x5 6+1.25x: 综合分析主成分回归方程得到PM10和0,交叉项以及NO:和0 交叉项对PM2.5浓度的影响程度最 大,CO与0,的交叉项以及s0:与O 的交叉项对PM2.5的影响次之。由此可以看出,对PM2.5影响较 大的因素不是单一的,而是两种因素共同作用影响显著。因此控制PM2.5的浓度时要着重控制0 以及 PM10和CO的排放量,能有效地降低PM2.5的含量。 3结语 洛阳属于工业城市,工业生产过程会产生大量污染物。洛阳市人口增长、工业持续发展和机动车辆 猛增,导致悬浮细颗粒物PM2.5和气态污染物二氧化硫、氮氧化物的增加,PM2.5中可溶性粒子具有强 吸水性,它们与水蒸气结合在一起,形成灰霾天气。根据以上分析结果,对洛阳市区提出以下合理性建 88 洛阳理工学院学报(自然科学版) 第28卷 议:①要求洛阳市区以及市周的工厂在烟囱内加废气处理装置,如尾气催化、将废气无害化处理再排放; ②加强车用燃油生产领域质量监督和检验,增加新能源的使用;③开发新能源,如太阳能、风能等适合 洛阳本地的新型能源。洛阳已有6个风电站,可以在此基础上选取合适的地方新增几个风力发电站;④ 加强对秸秆焚烧的监管。尤其是农村和城乡结合部地区的监管;⑤当雾霾达到一定程度时,对洛阳市区 车辆进行限号。 参考文献: [1]刘彪,邹雨菲,赵子程.吉林省四平市雾霾天气成因及影响[J].河南农业,2016(9):45. [2]王秦,陈曦,何公理,等.北京市城区冬季雾霾天气PM2.5中元素特征研究[J].光谱学与光谱分析,2013,33 (6):1441—1445. 金涛,薛澄岐,王海燕,等.基于改进后的主成分回归分析法的产品外观评估[J].东南大学学报,2011,41(4):739—743. [3] [4] 王翠云,胡学平,相旭东.PM2.5影响因素的主成分回归分析与预测[J].安庆师范学院学报,2015,21(4):24—27. [5] 张延军,李旭华,林锐锋,等.主成分回归分析法在永州I烟叶评吸质量与外观质量的关系模型构建中的应用[J].中国农学 通报,2012,28(18):256—259. 6] 何晓群,刘文卿.应用回归分析[M].4版北京:中国人民大学出版社,2015:156—160. 付倩娆.基于多元线性回归的雾霾预测方法研究[J].计算机科学,2016,43(6A):526—528. 7] 8] 高慧旋.应用多元统计分析[M].北京:北京大学出版社,2014:267—272. 9] 陈方樱,沈思.数据分析方法及SPSS应用[M].北京:科学出版社,2016:158—178. 10 ]武松,潘发明.SPSS统计分析大全[M].北京:清华大学出版社,2014:334—339. Research of PM2.5 Pollution Condition in Luoyang City Based on Principal Component Regression TIAN Yuzhu,LI Jingmei,LIU Mengmeng,WANG Jun (Henan University of Science and Technology,Luoyang 471000,China) Abstract:In order to explore the main factors influencing the PM2.5,a principal component regression analysis of other monitoring in— dexes in PM10 and AQI and the monthly average temperature is ca ̄ied out.Firstly,the data are standardized and then through the a— nalysis of the principal component,three principal component variables are obtained.Finally,a stepwise regression analysis is carried out on these principal components and PM2.5,which finds that PM10,NO2 and O3 have significant effects on PM2.5.This paper puts forward a set of suggestion,in hope of some reference for environmental protection. Key words:PM2.5;principal component regression;stepwise regression (上接第50页) [3]Xu J,Zhao Y,Jia Z Y,et a1.Rotor dynamic balancing control method based on fuzzy auto—tuning single neuron PID[J].IE— ICE Electronics Express,2017,14(10):1—12. 朱位秋,非线性随机动力学与控制[M].北京:科学出版社,2003:1—341. 王洪礼,许佳,葛根.赤潮藻类非线性动力学模型的随机分岔[J].海洋通报,2008,27(2):37—42. 王洪礼,许佳,葛根.机翼震颤的随机Hopf分岔研究[J].机械强度,2008,30(3):368—370. 葛根,王洪礼,许佳.矩形薄板在面内随机参数激励下的随机分岔研究[J].振动与冲击,2011,30(9):253—258 许佳.汽车半主动悬架的首次穿越与随机最优控制研究[D].天津:天津大学博士学位论文,2008:21—26. Stochastic Stability and Hopf Bifurcation Analysis of Four‘dimensional Rotor System JIN Ruijie (Lanzhou Jiaotong University,Lanzhou 730070,China) Abstract:This paper discusses the dynamical behavior of the rotor mechanical system and studies the stability and Hopf bifurcation of the system by using quasi—nonintegrable Hamilton system theory.Then,the conditions of local and global stability of system are ob— tained from the largest Lyapunov exponent boundary and category.Next,by using FPK equationt,the stationary probability density function and jointly stationary probability density function are obtained.Finally,the numerial simulation of system veriifes the result. Key words:rotor model;random excitation;stochastic stability;Hopf bifurcation