通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,达到通过X去预测Y的目的。
Y:连续数值型变量(GDP增长率)、0-1型变量、定序变量(优良差)、计数变量(次数)、生存变量(寿命)
数据分类:横截面数据-多元线性回归;时间序列数据-移动平均、指数平滑、ARIMA、GARCH、VAR、协积;面板数据(横截面+时间序列)-固定效应和随机效应、静态面板和动态面板
内生性:误差项μ和任一自变量x相关。x和μ的相关系数绝对值越大,代表内生性越大。
保证核心解释变量与μ不相关即可。
多元线性回归模型中的回归系数β被称为偏回归系数(偏导数定义);标准化回归系数
一元线性回归:y=a+bx+μ,x每增加一个单位,y平均变化b个单位;
双对数模型:lny+a+blnx+μ,x每增加1%,y平均变化b%;
半对数模型:y=a+blnx+μ,x每增加1%,y平均变化b/100个单位;
半对数模型2:lny=a+bx+μ,x每增加一个单位,y平均变化(100b)%;
引入虚拟变量的个数一般是分类数减1;