Tobit模型的形式
Tobit模型的形式如下:
yi=a+bxi+Yi(1)
其中Yi为随机误差项,xi为定量解释变量。yi为二元选择变量。此模型由JamesTobin1958年提出,因此得名。如利息税、机动车的费改税问题等。设
若是第一种选择等于1,第二种选择是0。
对yi取期望,
E(yi)=a+bxi(2)
下面研究yi的分布。因为yi只能取两个值,0和1,所以yi服从两点分布。把yi的分布记为,
则:
E(yi)=1(pi)+0(1-pi)=pi(3)
由(2)和(3)式有:
pi=a+bxi(yi的样本值是0或1,而预测值是概率。)(4)
以pi=-0.2+0.05xi为例,说明xi每增加一个单位,则采用第一种选择的概率增加0.05。假设用这个模型进行预测,当预测值落在区间之内(即xi取值在之内)时,则没有什么问题;但当预测值落在区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是,所以此时必须强令预测值(概率值)相应等于0或1(见下图)。线性概率模型常写成如下形式,
(5)
然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。
由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释变量xi所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的xi,当xi增加时,希望yi也单调增加或单调减少。显然累积概率分布函数F(zi)能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型。
累积正态概率分布曲线
logistic曲线