作者:屠星月,于辉辉,郭承坤,等
来源:《湖北农业科学》 2015年第19期
屠星月1,2,于辉辉1,2,郭承坤1,2,阮怀军3,陈英义1,2
(1.中国农业大学信息与电气工程学院,北京 100083;2.农业部农业信息获取技术重点实验室,北京 100083;
3.山东省农业科学院科技信息研究所,济南 250100)
摘要:基于传统计量经济预测方法无法解决非线性、小样本的价格预测的问题,建立了基于EMD(经验模态分解)-SVM(支持向量机)的农产品市场价格短期预测模型,以1997-2011年中国农产品集贸市场小麦月度价格序列为例对其进行方法应用。结果表明,与常用传统计量经济预测方法和智能化模型比较,基于EMD-SVM的农产品市场价格预测模型精度有明显提高,提供了适用于中国农产品波动规律的农产品价格短期预测的新方法和借鉴。
关键词:时间序列;经验模态分解;支持向量机;农产品价格预测
中图分类号:F323.7;O141.4;S-9
文献标识码:A
文章编号:0439-8114(2015)19-4903-05
DOI:10.14088/j.cnki.issn0439-8114.2015.19.063
EMD-SVM-based Short-Term Price Prediction Model for Market of
Agricultural Products
TU Xing-yue1,2, YU Hui-hui1,2, GUO Cheng-kun1,2,RUAN Huai-jun3, CHEN Ying-yi1,2
(1.College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China;
2. Key Laboratory of Agricultural Information Acquisition Technology, Ministry of Agriculture, Beijing 100083, China;
3.Institute of Information Technology, Shandong Academy of Agricultural Sciences, Jinan 250100, China)
Abstract: The prediction method of traditional econometric is still unsolvable for nonlinear and small scale price prediction,based on the problem, the EMD-SVM prediction model for market price of agricultural product was build. Taking the monthly time series of wheat price in Chinese terminal market in 1997-2011 as example, the method application of the model was conducted to test its accuracy. Results showed that, compared with common econometric prediction models and intelligent models, the accuracy of SVC was obviously improved by combining with EMD. Therefore, a new method and reference for short-term price prediction applicable to the regular fluctuation Chinese agricultural product was put forward.
Key words: time series;EMD;SVM;price prediction of agricultural product
收稿日期:2014-09-26
基金项目:山东省自主创新专项(2012CX90204)
作者简介:屠星月(1989-),女,云南昆明人,硕士,研究方向为农业信息化,(电话)13810414484(电子信箱)smfm1208@163.com;通讯作者,阮怀军(1964-),男,山东济南人,研究员,主要从事农业信息化研究,(电话)0531-83179930(电子信箱)Rhj64@163.com。
农产品市场价格预测,是政府管理决策、农业人员生产经营管理的重要依据。近年来,中国农产品市场价格波动频率快,波动幅度大,并呈现出非平稳、非线性等不规律波动特征,增加了农民生产安排、管理部门市场调控、政府管理决策的难度。因此科学准确地开展农产品价格预测,能够为社会提供具有前瞻性的市场信息服务,对有效指导农业生产经营管理具有重要意义[1]。
传统计量经济学基于价格时间序列进行统计分析与预测,是目前广泛应用的农产品价格预测方法,例如ARIMA、Holt-Winters、CensusX12季节调整法、ARCH模型等。王川等[2]依据时间序列数据特征筛选出双指数平滑模型、Holt-Winters乘法模型和ARIMA(1,1,4)模型进行加权组合实现了中国苹果市场价格短期预测;李干琼等[3]综合利用季节虚拟变量法、Census X12法、移动平均比率法、Holt-Winters季节指数平滑法、SARIMA法等建立了组合短期预测模型,结果表明组合模型预测的精度高于单项时间序列模型。然而随着市场价格波段逐渐向复杂化、非线性化、不规则化发展,该类方法反映出一定局限性。因此,基于智能化模型如支持向量机(Support vector machine, SVM)、神经网络、混沌时间序列的预测方法逐渐成为农产品市场价格预测的热点[4-6]。其中,建立在统计学理论基础上的SVM方法在时间序列预测方面具有可以有效缩小泛化误差区间、降低模型的结构风险、同时又保证样本预测误差最小的优点[7]。近年来,一些学者针对近期农产品市场价格的不规则、非线性波动特点,探索研究了SVM方法对农产品价格预测的应用。陈兆荣等[8]用SVM模
型对ARIMA模型的预测误差进行预测,实现了兼顾时间序列线性特征和非线性特征的ARIMA-SVM农产品价格预测组合模型,预测结果显示组合模型比单个ARIMA、SVM 模型预测精度高。赵辰阳等[4]利用粒化计算的思想将农产品市场价格序列提升到上层粒度序列,通过SVM对新形成的粒化序列进行预测形成预测区间,最后根据实测值与预测值的对比结果判断预测方法的优劣,提出了基于FIG-SVM 的农产品价格趋势预测方法,结果表明,该方法预测精度较高,能够应用于实际场景。韩延杰[9]将原始价格数据进行模糊信息粒化,然后利用支持向量机对粒化后的价格数据做出预测,为提高预测精度,利用遗传算法对支持向量机的参数进行优化,结果表明,该方法能对农产品价格的变化范围进行有效地预测。然而SVM方法单独应用于农产品时间序列价格预测时,容易出现预测滞后和拐点处误差较大的问题,现今基于EMD的智能化模型预测已逐渐应用于气象、工业、金融等领域,并验证了该方法的可行性和有效性[10-14]。
本研究引入了经验模态分解(Empirical mode decomposition,简称EMD)将价格序列分解为具有不同尺度特征的模态分量的叠加,并将这些具有平稳性、周期波动性的分量作为SVM的输入变量分别进行预测,并将预测结果叠加,从而获得农产品价格。选取1997-2011年中国农产品集贸市场小麦月度价格序列为例对EMD-SVM模型进行方法应用,并将结果与常用计量经济预测方法及SVM方法预测结果进行对比分析,验证了该方法的可行性和精确性。
1 研究方法
1.1 EMD方法原理
EMD是由美国国家宇航局N. E. Huang等于1998年提出的一种新型自适应信号时频处理方法,该方法依据数据自身的时间尺度特征进行信号分解,分解结果为一系列具有不同尺度、平稳性和周期波动性特征的本征模函数(Intrinsic mode function,IMF)和一个代表原始信号总体趋势的剩余分量,其中每个IMF必须满足如下两个条件:①在整个信号序列上,极值点的个数和过零点的个数相差不大于1;②在任意点处,上下包络的均值为0,其分解结果能够反映真实的物理过程,因此适用于处理非平稳、非线性的信号[15]。
EMD方法基于以下3个假设进行运算和分解:①任何信号都是由若干本征模态函数组成的; ②各个本征模态函数即可是线性的,也可是非线性的,各本征模态函数的局部零点数和极值点数相同,同时上下包络关于时间轴局部对称; ③在任何时候,一个信号都可以包含若干本征模态函数,若各模态函数之间相互混叠,则组成复合信号。
对原始信号P(t)进行EMD分解,步骤如下。
取P(t)序列的所有极大值和极小值,分别通过三次样条函数拟合出极大值、极小值的上包络线e+(t)和下包络线e-(t),将上下包络线的均值作为原信号的均值包络E1(t)。
将原信号减去E1(t)即得到一个去掉低频的新信号h11(t):
h11(t)=P(t)-E1(t) (2)
此时h11(t)一般不是一个平稳信号,因此不满足IMF定义的两个条件,重复上述过程,假定经过k次之后(k一般小于10)h1k(t)满足IMF的定义,则原信号P(t)的一阶IMF分量为:
imf1(t)=h1k(t)(3)
然后将原信号P(t)减去一阶IMF分量,得到一个去掉高频成分的新信号r1(t),即
r1(t)=P(t)-imf1(t)(4)
对r1(t)重复得到imf1(t)的过程,得到第二个IMF分量imf2(t),重复迭代,直到第m阶IMF分量imfm(t)小于预设值或其余量rm(t)小于预设值,或当余量rm(t)为单调函数或常量时,EMD分解过程停止。最后经分解后的价格序列P(t)为:
式中,imfi(t)为m个频率从高到低的本征模态函数IMF分量,rm(t)为趋势项,代表信号的平均趋势或均值。
1.2 SVM回归方法原理
SVM是由C C等[16]于1995年提出的基于统计理论、VC维(Vapnik-Chervonenkis dimension)和结构风险最小化模型算法设计的机器学习算法。该方法的基本思想是将低维不可分的数据转化到高维空间进行处理,即通过核函数定义的非线性映射将低维输入空间转化到高维空间使其线性可分,在高维空间中利用线性的方法分
析输入变量和输出变量之间的非线性关系。该方法由于以机构风险最小化为基础,因此对推广错误的上界进行约束和减少,推广性能优越,不存在神经网络等算法的过度适应问题,实现了低维数据到高维数据的映射及在高维空间使用线性函数实现分类,核函数的使用解决了以往存在的维数灾难问题。
SVM算法的核心是求解超平面,即最优回归函数的问题,对给定的训练样本集T={(xj,yi),xi∈Rd,yi∈R,i=1,2,…,n},其中n为训练样本个数,d为输入变量x的维数,求解反映输入变量和输出变量数量关系的回归线(面),称其为超平面。当输入变量维数为N时,支持向量归回的超平面为:
式中,W为权重向量,X是样本输入数据,b为偏移量,当在N维空间中无法找到拟合良好的超平面,则通过核函数将样本非线性映射到高维空间中寻找超平面,该平面在原N维空间中反映为曲面。超平面系数的求解根据机构风险最小化原则,可以转化为如下的最小化线性风险泛函的问题:
式中,ai和a*i表示拉格朗日橙子。K(xi,xj)为高维空间内积运算核函数。
1.3 EMD-SVM模型设计
现今研究中基于SVM的价格时间序列预测,一般利用若干期时间序列滞后的序列值作为SVM的输入样本,该过程中,随着时间序列的复杂性增加,不平稳性增加,SVM所需的滞后输入样本也会增加,EMD分解能够获得平稳的IMF分量和体现序列整体趋势的余量,减少了隐含信息的干涉和耦合,并可依据不同IMF分量的特点分别选择不同核函数进行SVM预测,从而提高精度。因此本研究建立了EMD-SVM预测模型,利用EMD对原始价格序列进行分解,利用EMD分解获得的具有平稳性、周期波动的若干价格序列分量为输入样本分别进行SVM预测,并将各分量的预测结果叠加从而获取价格预测值,具体如下。
首先,利用EMD对原始价格时间序列P(t)进行分解,获得m个imfi(t)为本征模态函数IMF分量,和rm(t)为趋势分量。
其次,分别对imfi(t)和rm(t)进行SVM预测,其中对各分量imfi(t)利用滞后q期的imf值imfi(t-q),imfi(t-q+1),imfi(t-q+2),…,imfi(t-1)作为SVM输入变量,预测第t期的imfi(t),q的确定以滞后q期的分量与t期分量相关性为依据进行选择,利用Xi,Yi表示预测imfi(t)的输入和输出样本,则有:
2 EMD-SVM预测模型应用实例
2.1 数据样本选择
本研究所用实验数据为中国知网2012、2008、2007、2004年统计年鉴中全国农产品集贸市场小麦月度价格走势数据,考虑样本的可获得性和连续性,最终选择数据周期为1997年3月至2011年12月共178个数据样本(图1),该数据为等间隔价格时间序列数据,该序列随时间呈不稳定、不规则波动,后期波动中具有一定周期性。
实验研究中利用1997年3月至2010年12月的166个样本作为训练样本、2011年12个月的样本作为测试样本进行预测模型应用与验证。
2.2 评价标准
本研究采用均方根误差(RMSE)和平均绝对百分比误差(MAPE)两个指标评价模型预测的精度(第一个指标是绝对指标,第二个指标是相对指标),两个指标定义分别为:
2.3 EMD-SVM预测模型应用
由图2可见,文中小麦价格时间序列具有不稳定、非线性的特征,因此可利用EMD方法对小麦价格时间序列进行分解,利用Matlab R2014a调用EMD工具箱编写程序对其进行分解获取4个IMF分量及1个线性趋势余量。分解结果如图2所示,图中前4个为IMF分量,最后1个为余量,可发现IMF1与IMF2分量波动剧烈但整体平稳,IMF3、IMF4分量变化逐渐缓慢且规律性较强,r5即余量,与原价格序列整体趋势一致,反映了价格序列的线性趋势。
常用的核函数有多项式核函数、径向基(RBF)核函数、多层感知器核函数等。依据EMD各分量及余量的波动特征,选择不同核函数进行SVM预测,其中对IMF1和IMF2采用RBF核函数进行预测,对IMF3、IMF4采用多项式核函数进行预测,对余量r5采用线性核函数进行预测,预测中滞后期数的选择依据价格序列中滞后期与当期的相关性系数进行确定,具体如表1所示,可见随着延迟时间增长,相关性递减。因此选用相关系数大于0.95的滞后数据进行预测,即选用滞后1期到滞后7期的数据进行SVM预测,预测结果评价如表2所示,发现对高频IMF分量的SVM预测效果不是很理想,随着频率降低,预测精度逐渐升高,但高频分量的幅值较小,因此对最终的预测结果影响较小。
最后对EMD分量及余量的SVM预测结果进行叠加,获得最终预测结果。
2.4 预测结果评价与分析
为对EMD-SVM的预测精度进行进一步对比分析,采用了常用的计量经济模型Holt-Winters、常用的智能分析方法神经网络、SVM方法对该时间序列进行预测,预测结果评价如表3所示,观察各方法的预测结果折线图(图3),发现结合EMD分解方法的SVM预测精度显著高于单独运用SVM方法预测,同时EMD-SVM不仅整体预测精度高
于其他常用方法,且在时序拐点(如图3中的2011年11月)部分的预测结果显著优于其他方法,因此验证了该方法的可行性和有效性。
3 结论与展望
针对传统计量经济预测方法难以预测非线性不规则价格时间序列、SVM方法在序列拐点预测效果较差的问题,建立了EMD-SVM价格序列预测模型。通过EMD方法对时间序列进行分解,将分解后获得的IMF分量和余量R进行SVM预测,将预测后的分量和余量进行叠加获得预测价格,并选用中国农产品集贸市场小麦月度价格序列进行实例验证和分析。预测结果表明:①引入EMD方法对时间序列进行分解,可依据各分量和余量的波动特征分别选择不同SVM核函数进行预测,削弱了预测中相邻频带的相互干扰,增加了SVM预测的灵活性,依据预测结果评价可发现EMD-SVM模型的预测结果精度高于单独应用SVM方法,且改善了SVM方法在时序拐点预测中误差较大的问题。②EMD-SVM模型预测结果与常用计量经济预测模型、神经网络模型相比预测精度较高,因此证明了该方法的优势。③预测中SVM模型预测中的估计参数依靠交叉验证确定,而该方法耗时较长,且精度不高,因此在今后的研究中,如何确定各分量、余量、SVM预测中的估计参数有待探索验证。由于数据获取的限制,本研究中仅利用价格时间序列进行预测,今后研究中可考虑利用多影响因素的农产品价格预测。
参考文献:
[1] 任伟宏.农产品市场价格预测方法探析[J].中国农学通报,2011(26):209-212.
[2] 王 川,赵俊晔,赵友森.组合预测模型在农产品价格短期预测中的应用——以苹果为例的实证分析[J].系统科学与数学,2013(01):89-96.
[3] 李干琼,许世卫,李哲敏,等.农产品市场价格短期预测方法与模型研究——基于时间序列模型的预测[J].中国农业大学学报,2011(02):172-178.
[4] 赵辰阳,徐 明.基于FIG-SVM的农产品价格趋势预测[J].江苏农业科学,2014(05):385-388.
[5] 彭 琳,林 明.基于NARX神经网络的农产品价格时间序列预测方法研究[J].农机化研究,2013(11):18-21.
[6] 魏明桦,郑金贵.基于改进BP神经算法的农产品价格预测模型的构建与实现[J].唐山师范学院学报,2014(02):66-68.
[7] V,V.The nature of statistical learning theory[M]. New York: Springer,1999:78-82.
[8] 陈兆荣,雷勋平,王 亮,等.基于ARIMA-SVM组合模型的我国农产品价格预测研究[J].财经理论研究,2013(02):103-107.
[9] 韩延杰.一种基于模糊信息粒化和GA-SVM的农产品价格预测方法[J].农业网络信息,2012(11):16-20.
[10] 尹东阳,盛义发,李永胜.基于EMD和RBFNN的短期风速预测[J].电气技术,2014(06):44-47.
[11] 郝 琼,刘毅敏.EMD-SVM组合模型在带钢张力预测中的应用[J].计算机测量与控制,2014(04):1279-1281,1284.
[12] 叶 林,刘 鹏.基于经验模态分解和支持向量机的短期风电功率组合预测模型[J].中国电机工程学报,2011(31):102-108.
[13] 王义康.EMD-SVM非线性组合模型对高炉铁水含硅量的预测[J].中国计量学院学报,2008(04):355-359.
[14] 朱倩雨,覃锡忠,贾振红.融合EMD与全局版人工鱼群LS-SVM的网络流量预测[J].激光杂志,2014(05):42-46.
[15] HUANGN N E,SHEN Z,LONG S R.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society,1998,454(1971):903-955.
[16] C C,V V.Support-vector networks[J].Machine Learning, 1995(3):273-297.
因篇幅问题不能全部显示,请点此查看更多更全内容