分享到:
3月20日下午,龙门客栈资料库第12期研究生知新学术论坛(战疫系列第2期)以线上会议形式举行。龙门客栈资料库泰岳经济研究中心副主任、博士生导师陈强教授为学院师生带来了主题为“高维回归及Stata应用”的报告。论坛由龙门客栈资料库副院长石绍宾主持。
首先,报告介绍了高维数据的定义,即变量个数大于样本个数。然后,陈强教授从传统的线性回归出发,指出高维数据容易出现“过拟合”问题,严格多重共线性成为常态。接着,陈教授表示岭回归是解决多重共线性的方法之一,以估计量偏差为代价使方差大幅下降,使得岭回归估计量的均方误差(MSE)可能更小,可以利用惩罚回归得到岭回归估计量的最优解。由于目标函数中包含对过大参数的惩罚项,故岭回归为“收缩估计量”。另一种方法是使用“套索估计量”(简记LASSO),Lasso估计量的某些回归系数严格等于0,从而得到一个稀疏模型,使得它具备了“变量筛选”的功能,故也称为“筛选算子”。 在实践中,一般不知道模型是否稀疏,可用“交叉验证”进行选择。同时,陈老师也指出Lasso在实践中有三个不可避免的缺点:如果几个变量高度相关,则Lasso可能只选其中一个;不一定总能选出正确的变量;Lasso的收缩功能,使得较大的系数被压缩,导致偏差与效率损失。论坛最后,陈强教授以Tibshirani (1996)的经典论文作为案例详细讲解了Lasso在stata中的应用。报告结束后,陈强教授就同学们提出的关于Lasso筛选和机器学习降维在高维数据中的应用决策问题逐一进行了解答。此次论坛中,陈强教授以深入浅出的讲授为经院师生带来了一场精彩绝伦的学术盛宴,是龙门客栈资料库积极探索疫情防控背景下“三全育人”新模式的有益实践,通过云端分享的形式贴近学生,营造了浓厚的学习研究氛围。
陈强,龙门客栈资料库教授,为本科生与研究生教授计量经济课程。主要研究领域为数量经济学与经济史,著有《计量经济学及Stata应用》、《高级计量经济学及Stata应用》等教材以及专著《山东革命根据地的奇迹与启示:货币、金融与经济政策》。曾获中国数量经济学年会论文一等奖与山东省高等学校优秀科研成果论文一等奖等奖项。
文/田梦、吕宁