Econometric Chapter 1:Linear Regression Model
计量经济学总体介绍
知乎上有一位前辈总结的很不错,我就不详细介绍了:知乎:(逍遥温温)#课程体验#计量经济学学习体验
一、Single Linear Regression Model
Reference:
《计量经济学》Chapter 2
《高级计量经济学及Stata应用》 Chapter 3, 5, 6
《Quantitative Analysis》GARP Chapter 7
《R in Action》Chapter 8
《量化投资以 Python 为工具》Chapter 17
Stata Code:
1. 散点图
scatter y x |
2. 相关系数
corr y x |
在Stata中,命令 corr
用于计算一组变量间的协方差或相关系数矩阵;命令 pwcorr
可用于计算一组变量中两两变量的相关系数,同时还可以对相关系数的显著性进行检验;命令 pcorr
用于计算一组变量中两两变量的偏相关系数并进行显著性检验。
3. 回归
reg y x |
4. 预测
predict yy,xb (拟合值预测) |
5. 预测值的预测区间
predictnl 预测变量名=predict(xb),ci(lb1 ub1) l(95) (均值预测区间) |
图中左上角
- 图中左上角的是对于 regress 后得到的 model 的一个 “analysis-of-variance(ANOVA)” 表格。
- 其每一列的头:SS , df , MS 分别对应:“sum of squares” , “degrees of freedom” 和 “mean square”。
- 第一列:可以知道 Model 的 SS(15241773.7)/ Total 的 SS(17598834.8) = R-squared(0.8661) 即 R2。R2 的意思就是说,这个模型说明解释了这些变量中多少的 variance 。
- 第二列:自由度,一共有 N 个 sample 这个数据集就有(N-1)个 df (因为要减去均值)。模型的自由度由模型有几个 predictor 决定。
- 第三列: MS 一般是用于计算 F-statistic 的。
图中的右上角
- 图中的右上角是另一些统计描述:
- 第一行:Number of obs 一共有多少个 sample
- 第二行:F(df of Model, df of Residual) = MS of Model(15241773.7)/MS of Residual(130947.839) = 116.40
- The F statistic tests the hypothesis that all coefficients excluding the constant are zero.
- 这个 F 值的 H0 假设是:所有的 predictor 都不对 y 产生影响,即所有 predictor 的 coef 都会是 0 ,所有的 predictor 都不 significant 。
- 第三行:Prob > F 的值是上述的 H0 假设的成立的可能性。当其趋近于0的时候,说明至少会有一些 predictor 的 coef 不为 0 .( p-value )
- 第四行:R-squared
- 第五行:Adj R-squared 由于 R2 存在一个问题:无论什么 predictor 加到模型中,R2 都会变大。为了避免这个问题,Adj R-squared惩罚了模型的复杂度。
- 第六行:root mean squared error 是 MS of Residual 的平方根(361.87 = 130947.839^0.5),其意义是回归模型的 residual 部分的 standard deviation 。
图中下面
- 图中下面的部分就是 regression 的结果了。
- 最后一行是模型的常数项
- 第一列是模型的系数,根据系数我们就可以写出回归的线性模型了
- 第二列是线性回归系数的 standard error , 这个系数是对前面 coef 的估计的可信度估计,越小越好。
- 这是估计的标准误差,是残差均方开根号的值,残差均方等于残差平方和除以自由度,残差平方和等于总平方和减去回归平方和
- 第三列是 t-statisitic , 正常 T-statistic 应该在0假设( null hypothesis )为真时,服从T分布(T-distribution).
- 粗略地讲这个值大于 2 ,对应的 predictor 就是 significant 。
- Coefficient 除以 standard error 等于 t-statistic
- 第四列是这个 t-statistic 的 p-value ,一般来讲小于0.05就是 significant 的
- 第五六列是 95% confidence interval of coef,系数的 95% 置信区间。
Summary:
*STATA没有清屏命令,我们用下面这个cheat它一下下 |
Datas:
- https://accelerator086.github.io/accelerator086-Blogs-Books/grilic.dta
- https://accelerator086.github.io/accelerator086-Blogs-Books/WAGE1.DTA
- https://accelerator086.github.io/accelerator086-Blogs-Books/WAGEPRC.DTA
Python Code:
有的时候,借力打力更好一些.
本博客所有文章除特别声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来自 Accelerator086!
评论