第 5 章 定性信息
5.1 二值变量
回忆OLS估计量的计算公式,不要求变量是连续的,可以是离散的,如只取两个值——1或0。称之为二值变量,或指示变量,或虚拟变量。考虑如下的二元线性回归模型:
\[\begin{align} y=\beta_0+\beta_1D+u \tag{5.1} \end{align}\]
\(\beta_1\)表示其他因素不变,D从0增加到1,y的变化。
利用OLS估计量的计算公式推出,\(\hat{\beta_1}=\bar{y}|_{D=1}-\bar{y}|_{D=0}\)。
如果零条件均值假设成立,\(\hat{\beta_1}\)是无偏的。
一个例子
中国改革的一个典型做法是先在一些地方试点,如果试点效果好,再把成功的经验推向全国。假设在中国部分地级市开展某项财税改革试点。考虑如下的计量模型:
\[\begin{align} y=\beta_0+\beta_1Pilot+u \tag{5.2} \end{align}\]
其中,y表示的是人均GDP的对数,度量经济发展水平。Pilot是一个虚拟变量,定义如下:
\[ Pilot= \begin{cases} 1& \text{进行了试点} \\ 0& \text{未进行试点} \end{cases} \]
通常把它称为政策虚拟变量(有政策为1,没政策为0,所以叫政策虚拟变量)。\(\beta_1\)表示D从0(无试点)增加到1(无试点)导致的y的变化,即试点的效果。\(\beta_1\)的OLS估计值等于试点市y的平均值减去未试点市y的平均值。如果零条件均值假设成立,OLS估计量是无偏的。零条件均值假设成立的一种情形是试点城市的选定是随机的。
5.2 虚拟变量陷阱
定义虚拟变量NoPilot如下:
\[ NoPilot= \begin{cases} 1& \text{未进行试点} \\ 0& \text{进行了试点} \end{cases} \]
Q:可以在计量模型中同时加入Pilot和NoPilot吗?即可以设置如下的计量模型吗?
\[\begin{align} y=\beta_0+\beta_1Pilot+\beta_2NoPilot+u \tag{5.3} \end{align}\]
\(Pilot+NoPilot=1\)。存在多重共线性。因此,不能这样做。
5.3 分类、基准和虚拟变量
从分类的角度理解虚拟变量。将地级市分成两类:试点和未试点。以未试点的地级市为基准,给试点的地级市一个虚拟变量Pilot(如图5.1)。回归中Pilot的系数表示相对基准,试点地级市因变量的平均增幅.

图 5.1: Classification
基准的选择是任意的。也可以选择试点的地级市作为基准,给未试点的地级市一个虚拟变量NoPilot,估计\(y=\beta_0+\beta_1NoPilot+u\)。从数学上讲,这样做没有问题,但NoPilot的系数的含义不那么自然。
5.4 多个虚拟变量
考虑另外一种试点情形:有两套试点方案,一套试点方案在一些地区实施,另一套试点方案在另一些地区实施,还有一些地区未实施任一方案。由于有两套试点方案,需要定义两个虚拟变量。记第一种试点方案的虚拟变量为Pilot1(试点此方案记为1,否则记为0),第二种试点方案的虚拟变量为Pilot2。计量模型:
\[\begin{align} y=\beta_0+\beta_1Pilot1+\beta_2Pilot2+u \tag{5.4} \end{align}\]
\(\beta_1\)和\(\beta_2\)分别表示试点方案1和2的效果。
\(\beta_1\)的OLS估计量:推行第一种试点方案的地级市y的均值-未试点的地级市y的均值。\(\beta_2\)的OLS估计量:推行第二种试点方案的地级市y的均值-未试点的地级市y的均值。
也可以从分类的角度理解,如图5.2。

图 5.2: Classification (continued)
把地级市分成三类:没有进行试点的地级市,试点方案一的地级市,试点方案二的地级市。把未进行试点的地级市作为基准。给试点方案一的地级市一个虚拟变量Pilot1,其系数表示相对基准试点方案二的地级市因变量的平均增或减幅。 给试点方案二的地级市一个虚拟变量Pilot2,其系数表示相对基准试点方案二的地级市因变量的平均增或减幅。
5.5 更多例子
用虚拟变量可以做很多事。比如,定义一个虚拟变量Male。顾名思义,它是男性的虚拟变量,赋值如下:
\[ Male= \begin{cases} 1& \text{男} \\ 0& \text{女} \end{cases} \]
计量模型:
\[\begin{align} wage=\beta_0+\beta_1Male+u \tag{5.5} \end{align}\]
Q:\(\hat{\beta_1}=?\)
还可以用虚拟变量研究种族(汉族还是少数民族);行业(重工业或轻工业,或三大产业);地区(东中西)。
伍德里奇《计量经济学导论:现代观点》第五版第7.1-7.3节对定性信息做了更详尽的介绍。
参考文献
- 伍德里奇. 计量经济学导论(第五版)[M]. 中国人民大学出版社, 2015.