伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.2 课后习题详解

一、习题

1.在简单回归模型(5.16)中,我们在前4个高斯-马尔可夫假定下证明了形如式(5.17)的估计量是斜率β1的一致估计量。给定这样一个估计量,定义β0的一个估计量为

证明

证明:简单回归模型为:y=β0+β1x+u,则其期望值是:E(y)=β0+β1E(x)+E(u) ,或μy=β0+β1μx。因为E(u)=0,则μy=E(y),μx=E(x1)。因此β0=μy-β1μx,则,现在,可得:

根据大数定律可知:,因此

2.数据集SMOKE.RAW包含美国成人个人随机样本在抽烟行为和其他变量方面的信息。变量cigs为(平均)每天抽烟的数量。你是否认为在美国这个总体中,cigs具有正态分布?试做解释。

答:在美国这个总体中,cigs不具有正态分布。大多数人不抽烟,因此对一半以上的美国人而言,cigs=0。正态分布随机变量的概率大于零并没有特殊的意义。另外,cigs的分布是左偏的,而正态分布随机变量是对称的。

3.假设模型pctstck=β0+β1funds+β2risktol+u,满足前4个高斯-马尔可夫假定,其中,pctstck表示工人养老金投资于股票市场的百分比,funds表示工人可以选择的共同基金的个数,而risktol表示对风险承受能力的某种度量(risktol越大,则表明这个人对风险的承受能力越强)。如果funds和risktol正相关,pctstck对funds简单回归的斜率系数有怎样的不一致性?

答:对风险的承受能力越强,就更愿意在资本市场上投资,因此β2>0。假定可供选择的共同基金的个数与个人承受风险的能力是正相关的,使用公式5.5,δ1>0:plim(β1)=β1+β2δ1>β1,因此有一个正的不一致性(渐进偏误)。这个结论是有意义的,如果省略个人对风险的承受能力这一变量,而它与可选择的共同基金个数相关,因此估计出来的funds对pctstck的影响实际上包括了risktol对pctstck的影响。

4.在满足假定MLR.1~MLR.4的简单回归中,我们证明了斜率估计量是β1的一致估计。

利用证明[你在使用β0=E(y)-β1E(X1)的同时,还需要使用的一致性和大数定律。

证明:简单模型为:y=β0+β1x+u,期望值是E(y)=β0+β1E(x)+E(u),或μy=β0+β1μx。因为E(u)=0,则μy=E(y),μx=E(x)。因此β0=μy-β1μx,则,根据大数定律

则对等式两边同时取概率极限得:

二、计算机习题

1.本题使用WAGE1.RAW中的数据。

(i)估计方程

wage=β0+β1educ+β2exper+β3tenure+u

保留残差并画出其直方图。

(ii)以log(wage)作为因变量重做第(i)部分。

(iii)你认为是水平值—水平值模型还是对数—水平值模型更接近于满足假定MLR.6?

答:(i)估计模型为:

526个残差,i=1,2,…,526的直方图如图5-1所示,根据STATA手册中的公式建议,对直方图使用了27个排序格,正态分布是适合图中描绘内容的数据分布。

图5-1

(ii)log(wage)作为因变量的估计方程为:

从方程中推出的残差直方图,以及最合适的正态分布重叠图如图5-2所示:

图5-2

(iii)log(wage)回归的残差看起来更符合正态分布,第(ii)部分的直方图的分布密度比第(i)部分直方图更好。wage残差直方图是显著左偏的。在wage的回归中,存在一些很大的残差(甚至等于15),这是基于残差平均值等于0的标准估计误差()。在对数—水平值模型中残差不等于0并没有造成太大的问题,因此,对数—水平值模型更接近于满足假定MLR.6。

2.本题使用GPA2.RAW中的数据。

(i)使用所有4137个观测,估计方程colgpa=β0+β1hsperc+β2sat+u并以标准形式报告结论。

(ii)使用前2070个观测再重新估计第(i)部分中的方程。

(iii)求出第(i)部分与第(ii)部分所得到的标准误的比率。并将这个比率与式(5.10)中的结论相比较。

答:(i)4137个观测值的回归模型为:

(ii)使用开始的2070个观测值的回归模型为:

(iii)使用2070个观测值的标准误与使用4137个观测值的比率为1.31。从5.10可知,,大于真实标准误的比率。

3.在第4章的方程(4.42)中,计算检验motheduc和fatheduc是否联合显著的LM统计量。在求约束模型的残差时一定要注意,估计约束模型所用的观测,都包含于无约束模型所有变量可以使用的数据中。(参见例4.9。)

答:首先使用motheduc和fatheduc这两个变量无损坏的1191个观测值关于colgpa对cigs、parity和fatheduc回归。此时得到残差,再对cigsi、parityi、faminci、motheduci和fatheduci,也可以仅对motheduci和fatheduci无损坏的1191个观测值进行回归。回归的判定系数为0.0024。在1191个观测值的基础上,卡方分布统计量为1.191×0.0024=2.86。p值为0.239,距离F检验的p值0.242非常近。

4.有几个统计量常被用于侦查潜在总体分布的非正态性。这里,我们将研究一个度量了分布偏斜程度的统计量。记得任何一个正态随机变量都是围绕着其均值对称分布的。因此,如果我们把一个对称分布的随机变量标准化,比如z=(y-μy)/σy,其中,μy=E(y),σy=sd(y),那么,Z的均值就是0,方差为1,而且E(Z3)=0。给定一个数据样本{yi:i=1,…,n},假定样本均值记为,样本标准差记为,那么,利用

我们就可以把样本中的yi加以标准化。(我们忽视它们是基于样本的估计值这一事实。)度量偏斜程度的一个样本统计量就是,或者将其中的自由度n调整为(n-1)。如果Y在总体中服从正态分布,那么,对于样本中标准化之后的数据而言,这个偏斜指标就不应该显著异于0。

(i)首先使用数据集40IKSUBS.RAW中具有fsize=1的那些观测。求出inc的偏斜指标。同样求出log(inc)的偏斜程度。哪个变量的偏斜程度更大,并因而看上去更不像正态分布?

(ii)然后使用BWGHT2.RAW。求出bwght和log(bwght)的偏斜指标。你得到什么结论?

(iii)评价如下命题:“对数变换总是使得一个恒为正的变量看上去更像正态分布。”

(iv)如果我们对回归背景下的正态性假定感兴趣,我们应该评价y和log(y)的无条件分布吗?请给出你的解释。

答:(i)inc的偏度为1.86。当使用log(inc)时,偏度为0.360,可知对数形式时偏度较小,这意味着其分布更接近正态分布。实际上,income的偏态分布是有据可查的。

(ii)bwght的偏度是-0.60,当采用log(bwght)时,偏度为-2.95。在这个案例中,使用自然对数之后偏度更大。

(iii)第(ii)问的案例已经明确地表明了这种状态不一定总是正确的。采用自然对数变换可能引入偏态。从实证问题角度而言,对许多经济变量尤其是以美元计的变量,采用对数形式通常都会有助于减少或消除偏态。但是它并不必然一定会消除。

(iv)为了进行回归分析,应该评价条件分布,也就是说,y和log(y)在解释变量x1,…,xk条件下的分布。如果均值分布如假定MLR.1和MLR.3提到一样是线性的,这就相当于研究总体误差u。实际上,这个问题中偏态的衡量常常适用于OLS回归中的残差分析。