第 9 章模型误设

本章在伍德里奇（2015）《计量经济学导论：现代观点》第五版第74-78页的基础上做了改写和拓展。

9.1 遗漏相关变量

仍然关注教育回报率。

假设真实的情况是受教育程度由高中提高到本科将使月收入提高1000元，如估计值为1500元则为高估，称产生正的偏误；估计值为800元则为低估，称产生负的偏误。

Q：如果E[IQ|受教育程度=本科]>E[IQ|受教育程度=高中]，那么，E[收入|受教育程度=本科]-[收入|受教育程度=高中]将高估、还是低估受教育程度对收入的因果影响？

本科生收入更高反映了两种影响：一个是教育的作用，另一个是本科生的IQ平均更高，而IQ高导致收入高，即收入差距一部分是由IQ差距导致的。简单求收入差值将高估受教育程度对收入的因果影响。

用数学语言讲，造成正的偏误的来源有两点：受教育程度与IQ正相关，而IQ对收入有正向的因果影响。

用计量语言概括此例：真实的模型是这样的：\(wage=\beta_0+\beta_1educ+\beta_2IQ+u,E[u|educ,IQ]=0\)。但我们错误估计了如下模型：\(wage=\alpha_0+\alpha_1educ+w\)。这属于模型误设的一种情形：遗漏相关变量。OLS估计量存在正的偏误（高估）。

一般地，真实的模型为：\(y=\beta_0+\beta_1x_1+\beta_2x_2+u\)。假设零条件均值假设成立。错误地估计模型：\(y=\alpha_0+\alpha_1x_1+w\)。\(\hat{\alpha_1}\)和\(\hat{\beta_1}\)有何联系？

推导如下：

图 9.1: Derivation for omitted variables

对于真实的模型，零条件均值假设成立，故有：\(\hat{\beta_1}\stackrel{p}{\longrightarrow}\beta_1\)。而\(Cov(u,x_1)=0,Cov(v,x_1)=0\) => \(Cov(\beta_2v+u,x_1)=0\)。因此，\(\hat{\alpha_1}\stackrel{p}{\longrightarrow}\beta_1+\beta_2\delta_1\)。多出来的部分\(\beta_2\delta_1\)就是偏误。其中，\(\delta_1\)反映\(x_1\)和\(x_2\)的相关性。\(\beta_2\)反映\(x_2\)对y的因果影响。对应上面提到的两点。在例子中，\(\beta_2\)和\(\delta_1\)都为正，正正得正，偏误为正（高估）。

例: cons<-transfer+income, 遗漏income. Q: 偏误方向?

例: GDP<-govt expenditure+money supply, 遗漏货币供给. Q: 偏误方向?。

9.2 包含无关变量

假设真实的模型是：\(y=\beta_0+\beta_1x_1+\beta_2x_2+u\)。我们引入了无关变量\(x_3\)。

真实的模型又可写作：\(y=\beta_0+\beta_1x_1+\beta_2x_2+0\times x_3+u\)。通过这一改写，形式上将\(x_3\)纳入了真实模型，不再是无关变量。可推出：若零条件均值假设成立，\(x_1,x_2,x_3\)的系数的OLS估计量皆是无偏的，特别地，\(x_3\)的系数的OLS估计量的期望为0。

但要注意，包含无关变量可能使得标准误增大。

本章小结

遗漏相关变量导致偏误，包含无关变量影响方差。这两个都有问题，遗漏相关变量问题可能更大一点。所以，一般的建议是在不确定要不要加某个变量作为自变量的时候，把它加上，这可能使得标准误变大，但OLS估计量始终是无偏的，平均而言反映了因果关系。

参考文献

伍德里奇. 计量经济学导论(第五版)[M]. 中国人民大学出版社, 2015.

第 9 章 模型误设

9.1 遗漏相关变量

9.2 包含无关变量

第 9 章模型误设