spss时间序列分析效果图解(SPSSAU数据分析)
本文中我们将主要介绍ARIMA模型,这是实际案例中最常用的一种时间序列模型。
01时间序列是什么?
时间序列数据是按时间顺序排列的、随时间变化且相互关联的数据序列,通过研究历史数据的变化趋势,来评估和预测未来的数据。时间序列数据常出现在经济、金融、商业数据分析领域中。
02检验流程
第一, 首先时间序列的预处理包括两个方面的检验,平稳性检验和白噪声检验。序列的平稳性,一般通过时序图和相关图来判断。如果序列是非平稳的,可通过对数据进行差分处理,然后进行平稳性检验,判断序列是否平稳。一般在应用中,差分的阶数(d)不超过2。
第二, ARIMA模型(p,d,q) 称为差分自回归移动平均模型,根据原序列是否平稳以及回归中所含部分的不同,ARIMA模型可拆分为3项,分别是AR(p)模型、I(d)即差分、和MA(q)模型,因此需要分别确定这三个参数的阶数。一般可使用偏(自)相关图得到合适的p、q阶数,以及使用ADF检验得出合适的差分阶数d。
第三, 在确定自回归阶数p,差分阶数d值和移动平均阶数q这3个参数后即可进行模型构建。SPSSAU的【ARIMA预测模型】可智能找出最佳模型,提供最佳的q、d、p值建议。(其原理在于利用AIC值最小这一规则,遍历出各种可能的模型组合进行模型构建,并且结合AIC最小这一规则,最终得到最佳模型,省去了模型优化的过程。)
第四, ARIMA模型结果共输出3个表格,第1个表格是拟合模型参数表格,展示模型构建结果情况包括回归系数值,p值等;第2个表格是模型Q统计量表格,用于检验残差是否为白噪声;第3个表格是模型预测值,提供往后12期的模型预测值。
03案例分析
(1)背景
当前有1978~2006年共29年的人均卫生费用的数据,希望使用SPSSAU数据分析平台找出合适的ARIMA模型对我国人均卫生费用进行预测。
(2)数据格式
时间序列的格式包括时间和实际分析项共两列。
比如下图中年份就是时间项,“人均卫生费用”就是实际分析项。分析时并不需要设置时间项,但研究人员整理的数据一定要是这样的格式,从上至下的日期递增。然后将整理好的数据上传至SPSSAU分析平台。
时间序列的单位一般是年,比如“我国历年的GDP数据”、“我国历年人口数据”等。当然如果单位为月或者季度、也或者周等,可以体现出数据的变化规律,也一样可以作为时间序列数据使用。
(3)平稳性检验
时间序列分析中首先遇到的问题是数据的平稳性问题。数据平稳性可通过时序图,直观观察数据特征判断它是否是平稳的。但是,图检验法带有很强的主观性,因此也会使用ADF检验即单位根检验得到更为准确的判断。
-
散点图(时序图)
操作步骤:SPSSAU【可视化】-【散点图】。
一个平稳的时间序列在图形上往往表现为一种围绕均值不断波动的样子,如果是非平稳序列常常呈现出在不同时间段具有不同的均值。比如持续上升或持续下降。
从上图中可以看出,图中散点有明显的上升趋势,不符合时间序列的要求。所以将数据先取对数,然后进行差分处理后再进行检验。
-
ADF检验
时序图检验序列平稳性带有很强的主观性,因此也会使用ADF检验即单位根检验得到更为准确的判断。
单位根检验可用于检验时间序列是否存在单位根,如果存在单位根就说明为非平稳序列。如果存在单位根即时间序列数据不平稳,通常不能进行后续的分析比如ARIMA模型。
操作步骤:
① 选择SPSSAU【计量经济研究】-【ADF检验】。
② 在分析框中,放入“Ln_人均卫生费用”。差分阶数选择“自动”,类型默认,点击开始分析。
ADF检验
结果分析:
由上表可见,针对人均卫生费用,该时间序列数据ADF检验的t统计量为-0.778,p值为0.825,1%、5%、10%临界值分别为-3.700、-2.976、-2.628。
p=0.825>0.1,不能拒绝原假设,序列不平稳。对序列进行一阶差分再进行ADF检验。
一阶差分后数据ADF检验结果显示p=0.287>0.1,不能拒绝原假设,序列不平稳,对序列进行二阶差分再进行ADF检验。
二阶差分后数据ADF检验结果显示p=0.000<0.01,有高于99%的把握拒绝原假设,此时序列平稳。因此可以考虑将差分次数d定为2。
(4)偏(自)相关图
根据上面的平稳性检验,二阶差分后的序列为平稳序列,接下来可绘制【偏(自)相关图】来判断p、q的阶数。
操作步骤:
① 选择SPSSAU【计量经济研究】-【偏(自)相关图】
② 在分析框中,放入“Ln_人均卫生费用”。差分阶数选择“2阶”,点击开始分析。
关于ARMA通用判断标准说明如下表格:
-
拖尾:始终有非零取值,不会在大于某阶后就快速趋近于0(而是在0附近波动),可简单理解为无论如何都不会为0,而是在某阶之后在0附近随机变化。
-
截尾:在大于某阶(k)后快速趋于0为k阶截尾,可简单理解为从某阶之后直接就变为0。
关于拖尾和截尾的简单解读上,如果值无论如何都不趋近于0,那么为拖尾;如果值快速趋近于0,则为截尾。
结合ACF和PACF图,SPSSAU自动进行识别,最终建议自回归阶数p值为3,移动平均阶数q值为3。结合上一步中确定的差分阶段d,到这里我们已经确定p、d、q三个参数的阶数,接下来就可以建立ARIMA模型。
(5)ARIMA预测模型
操作步骤:
① 选择SPSSAU【计量经济研究】-【ARIMA预测】
② 在时间序列框中,放入“Ln_人均卫生费用”。差分阶数选择“二阶”,自回归阶数p选择“3”,移动平均阶数q选择“3”,点击开始分析。
结果分析:
ARIMA模型结果共输出3个表格,第1个表格是拟合模型参数表格,展示模型构建结果情况包括回归系数值,p值等;第2个表格是模型Q统计量表格,用于检验残差是否为白噪声;第3个表格是模型预测值,提供往后12期的模型预测值。
第一个表格:ARIMA(3,2,3)模型参数表
第一个表格展示的是本次模型构建结果,包括模型参数、信息准则等指标,通常不需要对其过多关注。AIC和BIC值用于多次分析模型对比;此两值越低越好,如果多次进行分析,可对比此两个值的变化情况,综合说明模型构建的优化过程。SPSSAU会自动对多个潜在备选模型进行建模和对比选择。
第二个表格:模型Q统计量表格
AIRMA模型构建后一般要求模型残差为白噪声,即残差不存在自相关性,第二个表格展示的即是通过Q统计量检验进行白噪声检验的结果(原假设:残差是白噪声)。
比如Q6用于检验残差前6阶自相关系数是否满足白噪声,通常其对应p值大于0.1则说明满足白噪声检验(反之则说明不是白噪声),常见情况下可直接针对Q6进行分析即可。
从Q统计量结果看,Q6的p值大于0.1,则在0.1的显著性水平下不能拒绝原假设,模型的残差是白噪声,模型基本满足要求。
第三个表格:预测值表格
第三个表格为预测值表格, ARIMA模型目的就在于预测以后的数据情况,因此这个表格也是研究者最关注的。其中的向后1期,代表着2007年的预测值;向后2期代表着2008年的预测值,往后依次类推。
由于我们之前对数据做过对数处理,所以这里展示的预测值还不是最终的预测结果,还需要还原预测值结果。(如果没有做过对数处理可以忽略此步)
最终我们对比预测值与实际值可以看到,通过ARIMA模型进行预测,预测2007年我国人均卫生费用应为848.93元,与真实值875.96元基本接近,说明模型预测结果可靠。
从经验上看,ARIMA模型向后预期的1期和向后2期相对较为可靠,如果向后期数过多,则准确性会较低。
特别说明:SPSSAU可默认智能地找出最佳的ARIMA模型并且进行预测,智能拟合模型的原理在于利用AIC值越小越好这一规则,从众多潜在的模型中进行对比选择出最佳模型。如果说研究人员想通过SPSSAU自动识别出最佳的ARIMA模型,则直接使用【计量经济研究】中的【ARIMA模型】进行分析即可。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。