日期:2014-05-16  浏览次数:20410 次

使用eviews做线性回归分析
Glossary:
ls(least squares)最小二乘法
R-sequared样本决定系数(R2):值为0-1,越接近1表示拟合越好,>0.8认为可以接受,但是R2随因变量的增多而增大,解决这个问题使用来调整
Adjust R-seqaured()
S.E of regression回归标准误差
Log likelihood对数似然比:残差越小,L值越大,越大说明模型越正确
Durbin-Watson stat:DW统计量,0-4之间
Mean dependent var因变量的均值
S.D. dependent var因变量的标准差
Akaike info criterion赤池信息量(AIC)(越小说明模型越精确)
Schwarz ctiterion:施瓦兹信息量(SC)(越小说明模型越精确)
Prob(F-statistic)相伴概率
fitted(拟合值)

线性回归的基本假设:
1.自变量之间不相关
2.随机误差相互独立,且服从期望为0,标准差为σ的正态分布
3.样本个数多于参数个数

建模方法:
ls y c x1 x2 x3 ...
x1 x2 x3的选择先做各序列之间的简单相关系数计算,选择同因变量相关系数大而自变量相关系数小的一些变量。模型的实际业务含义也有指导意义,比如m1同gdp肯定是相关的。
模型的建立是简单的,复杂的是模型的检验、评价和之后的调整、择优。

模型检验:
1)方程显著性检验(F检验):模型拟合样本的效果,即选择的所有自变量对因变量的解释力度

F大于临界值则说明拒绝0假设。
Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p值,若p小于置信度(如0.05)则可以拒绝0假设,即认为方程显著性明显。

2)回归系数显著性检验(t检验):检验每一个自变量的合理性
|t|大于临界值表示可拒绝系数为0的假设,即系数合理。t分布的自由度为n-p-1,n为样本数,p为系数位置

3)DW检验:检验残差序列的自相关性,检验基本假设2(随机误差相互独立)
残差:模型计算值与资料实测值之差为残差
0<=dw<=dl 残差序列正相关,du<dw<4-du 无自相关, 4-dl<dw<=4负相关 ,若不在以上3个区间则检验失败,无法判断
demo中的dw=0.141430 ,dl=1.73369,du=1.7786,所以存在正相关

模型评价
目的:不同模型中择优
1)样本决定系数R-squared及修正的R-squared
R-squared=SSR/SST 表示总离差平方和中由回归方程可以解释部分的比例,比例越大说明回归方程可以解释的部分越多。
Adjust R-seqaured=1-(n-1)/(n-k)(1-R2)
2)对数似然值(Log Likelihood,简记为L)
残差越小,L越大
3)AIC准则
AIC= -2L/n+2k/n, 其中L为 log likelihood,n为样本总量,k为参数个数。
AIC可认为是反向修正的L,AIC越小说明模型越精确。
4)SC准则
SC= -2L/n + k*ln(n)/n
用法同AIC非常接近


预测forecast
root mean sequared error(RMSE)均方根误差
Mean Absolute Error(MAE)平均绝对误差
这两个变量取决于因变量的绝对值,
MAPE(Mean Abs. Percent Error)平均绝对百分误差,一般的认为MAPE<10则认为预测精度较高
Theil Inequality Coefficient(希尔不等系数)值为0-1,越小表示拟合值和真实值差异越小。
偏差率(bias Proportion),bp,反映预测值和真实值均值间的差异
方差率(variance Proportion),vp,反映预测值和真实值标准差的差异
协变率(covariance Proportion),cp,反映了剩余的误差
以上三项相加等于1。
预测比较理想是bp,vp比较小,值集中在cp上。

eviews不能直接计算出预测值的置信区间,需要通过置信区间的上下限公式来计算。如何操作?

其他
1)Chow检验
chow's breakpoint检验
零假设是:两个子样本拟合的方程无显著差异。有差异则说明关系中结构发生改变
demo中
Chow Breakpoint Test: 1977Q1                                
                               
F-statistic        2.95511837136742            Prob. F(3,174)                0.0339915698953355
Log likelihood ratio        8.94507926849178            Prob. Chi-Square(3)                0.0300300700620291
                               
p值<0.05,可拒绝0假设,即认为各个因素的影响强弱发生了改变。
问题是如何才能准确的找到这个或这几个断点?目前的方法是找残差扩大超出边线的那个点,但这是不准确的,在demo中1975Q2的残差超出,但是chow's breakpoint检验的两个p值都接近0.2,1976Q3开始两个p值才小于0.05,并且有逐渐减小之势。
chow's forecast检验
用断点隔断样本,用之前的样本建立回归模型,然后用这个模型对后一段进行预测,检验这个模型对后续样本的拟合程度。
0假设是:模型与后段样本无显著差异
demo中的1976Q4作为break point,得到两个p值为0,即认为两段样本的系数应该是不同的。
2)自变量的选择
testadd检验:
操作方法是: eqation name.testadd ser1 ser2 ...
0假设:应该将该变量引入方程
检验统计量:wald,LR
结果:通过两个p值(Prob. F