第 3 章 多元线性回归:估计
3.1 使用多元线性回归模型的动因
二线线性回归模型:
\[\begin{align} wage=\beta_0+\beta_1educ+u(IQ,...),Cov(educ, IQ)>0 \tag{3.1} \end{align}\]
问题是,受教育程度更高的人平均而言IQ也更高,零条件均值假设不成立,估计量有偏。怎么解决这个问题?
造成困扰的原因是干扰项中包含IQ。既如此,直接把IQ放到自变量里面就行了:
\[\begin{align} wage=\beta_0+\beta_1educ+\beta_2IQ+u \tag{3.2} \end{align}\]
这是多元线性回归模型,具体来说是三元线性回归模型,三元是educ、IQ和常数1(\(\beta_0\times1\))。一般地,可以把认为可能会干扰结果的遗漏变量加到自变量中。这样,它们不再被遗漏掉,以此处理遗漏变量问题。
3.2 多元线性回归模型的定义
多元线性回归模型具有如下的形式:
\[\begin{align} y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u \tag{3.3} \end{align}\]
- y:dependent variable, explained variable, response variable;
- \(x_1,x_2,...,x_k\):independent variables, explanatory variables, regressors;
- u:error term, disturbance, unobservables;
- \(\beta_0\):intercept;
- \(\beta_1,\beta_2,...,\beta_k\):slope parameters。
尽管存在多个解释变量,并不是说我们对所有解释变量的系数都同等程度地关心。很多时候,我们只关心其中一个解释变量如\(x_1\)的系数。如在上面的例子中,我们仅关心educ的系数,表示教育回报率。至于IQ的系数是多少,我们不关心。把IQ加进来唯一的理由是,若不加进来,它就是遗漏变量,会导致估计结果有偏。我们把\(x_1\)叫做核心解释变量,其他解释变量叫做控制变量。
\(x_1\)的系数\(\beta_1\)的含义:当\(\bigtriangleup x_1=1, \bigtriangleup x_2=0, …, \bigtriangleup x_k=0, \bigtriangleup u=0\)时,\(\bigtriangleup y=\beta_1\)。故其反映\(x_1\)对y的因果影响。
函数形式
变量可以取对数,也可以取平方。如政府债务对经济增长的影响可能是倒U型的:适当规模的政府债务于经济发展有利,但过犹不及。相应地,计量模型为:\(GDPG_i=\beta_0+\beta_1Debt_i+\beta_2(Debt_i)^2+u_i\)。其中,i表示省,\(GDPG_i\)表示i省的经济增长率,\(Debt_i\)表示i省的债务。预期\(\beta_1>0,\ \beta_2<0\)。Q:计算\(\frac{ d_{GDPG_i} } { d_{Debt_i} }\)。最优的债务水平是多少?
3.3 OLS法的操作和解释
如何得到OLS估计值
定义拟合值:\(\hat{y_i}\equiv \hat{\beta_0}+\hat{\beta_1}x_{i1}+\hat{\beta_2}x_{i2}+...+\hat{\beta_k}x_{ik}\)。
定义残差:\(\hat{u_i}\equiv y_i-\hat{y_i}\)。
求解优化问题:\(min\ \sum_{i=1}^n(\hat{u_i})^2\)。一阶条件为:
\[\begin{align} \sum_i\hat{u_i}=0 \tag{3.4} \end{align}\]
\[\begin{align} \sum_ix_{ij}\hat{u_i}=0\ for\ j=1,2,...,k \tag{3.5} \end{align}\]
=>
\[\begin{align} \sum_i\hat{y_i}\hat{u_i}=0 \tag{3.6} \end{align}\]
式(3.3)的含义:Deviations from regression line sum up to zero。也就是说,正负残差抵消掉了。
式(3.4)的含义:Correlations between deviations and regressors are zero,即所有解释变量和残差不相关。
式(3.5)的含义:因变量分解成拟合值和残差这两个不相关的部分。
求解一阶条件组成的联立方程组可得\(\hat{\beta_0},\hat{\beta_1},\hat{\beta_2},...,\hat{\beta_k}\)的OLS估计量。
理解多元回归估计系数
欲求\(x_1\)的估计系数,可采取两步法如下:
- Step 1:\(x_1\)对\(x_2\),…,\(x_k\)做OLS回归(可不可以这样做?),生成残差\(\hat{r}\),即将\(x_1\)分解为其他解释变量解释的部分(拟合值)和与其他解释变量无关的部分(\(\hat{r}\));
- Step 2:y对\(\hat{r}\)回归。
Step 2估计的\(x_1\)的系数等于用OLS法估计的\(x_1\)的系数(证明见伍德里奇3-2f)。
在Step 1中,\(\hat{r}\)是\(x_1\)与其他自变量(\(x_2,…,x_k\))不相关的部分。另一种说法:\(\hat{r}\)是\(x_1\)排除了或净化掉其他自变量的影响之后的部分。于是,\(\hat{\beta_1}\)度量的是在排除其他自变量的影响之后y与\(x_1\)之间的关系。
多元回归分析的作用在于,尽管不能在其他自变量不变的情况下收集数据,但它提供的系数仍可作其他自变量不变的解释。
例:\(wage=\beta_0+\beta_1educ+\beta_2IQ+u\)。\(\hat{\beta_1}\)表示保持IQ不变时受教育程度与工资的关系,相当于比较具有相同IQ但不同受教育程度和收入的人。看起来就好像我们在具有相同IQ但educ可能不同的人群中抽样。尽管保持IQ不变,道德品质等仍可能变化,educ与wage之间的关系不完全反映educ->wage的因果关系。一般地,不能保证估计系数有意义。
另见伍德里奇(2015)《计量经济学导论:现代观点》第五版第3.2节“对多元回归‘排除其他变量影响’的解释”。
3.4 OLS估计量的期望
三个假设
(1)假设1(随机抽样):我们有一个服从总体模型(3.3)的随机样本;
(2)假设2(不存在完全多重共线性):解释变量(含常数)间不存在准确的线性关系,即不存在如下的关系:
\[\begin{align} a_0+a_1x_1+a_2x_2+…+a_kx_k=0 \tag{3.6} \end{align}\]
完全多重共线性的例子:某乡村自20世纪80年代举行村长选举多次,每次在两名候选人之间选举村长,其中一名是张姓候选人,另一名是非张姓候选人。考虑到村民倾向于支持同姓候选人,建立如下的计量模型:\(voteZ=\beta_0+\beta_1shareZ+\beta_2sharenZ+u\)。其中,voteZ是张姓候选人得票率,shareZ是张姓村民占比,sharenZ是非张姓村民占比。显然,shareZ+sharenZ=1。故这一模型存在多重共线性。
这一假设排除了某解释变量为常数的情况。
这一假设仅排除了解释变量之间的完全相关(|r|=1); 允许不完全相关。
(3)假设3(零条件均值假设):\(E[u|x_1,x_2,...,x_k]=0\),表示自变量\(x_1,x_2,…,x_k\)对于预测干扰项的均值没有帮助。也就是说,任一自变量变大或变小,干扰项的均值保持不变。
如果零条件均值假设成立,有下面的推论:\(Cov(x_j,u)=0,Corr(x_j,u)=0\ for\ j=1,2,…,k\)。把与干扰项不相关的变量就称为外生解释变量,与干扰项相关的解释变量称为内生解释变量。零条件均值假设成立意味着所有解释变量都是外生解释变量。
OLS估计量的期望
若计量模型(3.3)满足假设1-3,可推出:\(E(\hat{\beta_j})=\beta_j,\ j=0,1,2,...,k\),即OLS估计量是无偏的。
注意,无偏性是多轮抽样的平均性质。对于一个样本,估计值可能小于或大于总体参数,甚至可能离总体参数很远。