中国科商网
消息!stata学习笔记:多重共线性
发布日期: 2023-04-27 20:11:51 来源: 哔哩哔哩

最近正在学习计量经济学和stata,想和大家一起分享学习内容,希望能和大家共同进步!大家有什么想法可以在打在评论区,期待大家的高见!٩(๑❛ᴗ❛๑)۶


(资料图片)

例子:中国粮食生产的影响因素

一、数据预处理

首先在excel中对数据进行预处理

先将数据类型改为数值类型,再计算取对数的结果。

需要用到的函数:

log(x,y):以y为底x的对数

exp(x):常数e的x次方

把处理好的excel表格导入到stata中

PS:

也可以先将excel表格导入stata中再处理(以下是参考代码)

(1)将原表格数据导入stata,并另存为.dta文件方便处理

import excel "D:\学习\大二\计量经济学\Grain20_1.xlsx", sheet("Sheet2")firstrow

save "D:\学习\大二\计量经济学\Grain20_1.dta"

(2)打开文件

use "D:\学习\大二\计量经济学\Grain20_1.dta"

(3)删除表中最后两行说明行(不删除则无法进行数据转换)

(4)将文本数据转换为数值数据(使用replace指令替换原数据)

(5)生成对数化数据

二、初步回归

将因变量与所有的自变量(一共七个)进行回归

再计算F和t的临界检验值

(α=0.05水平下。F是单侧检验,t是双侧检验)

①可以发现,R方为0.9939接近1,且F=531.10>2.44,说明总体的线性关系显著。

②但其中只有lCropArea和lSTractor通过了t检验,其余变量未通过。

③另外,部分变量的系数的经济意义不合理。lSTractor表示小型拖拉机数量,lLabour表示劳动力数量,这两个变量与粮食产量lGrain呈负相关,与常识不太相符。

计算方差膨胀因子

④可以看到有4个变量的VIF值超过了10,均值也大于10,说明模型存在严重的多重共线性。

计算各变量间的相关系数

⑤可以看到许多变量之间存在高度的相关性。

基于上述五点,可以认为该多元线性回归方程不合理,需要进行修改。

三、优化模型

1.简单的一元回归

对比七组一元线性回归,发现粮食产量lGrain与播种面积lCropArea的回归可决系数最大(0.9845,调整后为0.9840)。粮食产量与播种面积关系密切,这也符合我们的一般认识。故以这一组一元回归方程为基础建立多元线性回归。

2.逐步回归

始终保持lCropArea作为解释变量,让lGrain与lCropArea及剩余变量做二元回归,若通过t检验且经济显著则保留。

第一步,在初始模型中引入lIrrigatedArea,模型拟合优度提高,且参数符号合理,变量也通过了检验;

第二步,去掉lIrrigatedArea引入lFertilizer,拟合优度减小,虽然参数符号合理,变量lFertilizer也通过了检验;

第三步,去掉lFertilizer引入lLMTractor,拟合优度仍未提高,lLMTractor的参数未能通过检验;

第四步,去掉lLMTractor引入lSTractor,拟合优度未提高,lSTractor的参数符号不合理且未通过检验;

第五步,去掉lSTractor引入lDisasterArea,拟合优度未提高,lDisasterArea的参数符号合理但未能通过检验;

第六步,去掉lDisasterArea引入lLabour,拟合优度未提高,lLabour的参数符号也不合理且未能通过检验;

综上,应将灌溉面积lIrrigatedArea保留,并再以此为基础构建三元线性回归方程。

四、继续逐步回归

上述回归中,仅lnStractor通过t检验,但其符号不合理,仍无法计入模型。

故最终选择以播种面积和灌溉面积构建的二元线性回归方程来解释粮食产量:

lGrain=-0.9150+0.7988lCropArea+0.2576lIrrigatedArea

附:使用stepwise reg 指令进行逐步回归

大致思路:设定t检验显著性水平α=0.05(双侧),进行向前逐步回归,显著则加入,最终得到模型保留lnCropArea,lnIrrigatedArea,与前结论相同

题目来源:老师的讲义

封面来源:米游社;《崩坏·星穹铁道》

特别鸣谢:

关键词:

相关内容