如何解释Stata中的概率模型？

13

我不确定如何解释我在Stata上运行的概率回归。数据是关于贷款批准的，白色是一个虚拟变量，如果一个人是白人，则为= 1，否则为= 0。任何有关如何阅读此书的帮助将不胜感激。我最想寻找的是如何找到白人和非白人的贷款批准估计概率。有人可以帮我解决这里的文字以及如何使其正常吗？对不起，我不知道该怎么做。

. probit approve white

Iteration 0:   log likelihood = -740.34659  
Iteration 1:   log likelihood = -701.33221  
Iteration 2:   log likelihood = -700.87747  
Iteration 3:   log likelihood = -700.87744  

Probit regression                                 
Number of obs   =       1989

LR chi2(1)      =      78.94

Prob > chi2     =     0.0000

Log likelihood = -700.87744                       

Pseudo R2       =     0.0533

对于变量white：

Coef.: .7839465  
Std. Err.: .0867118  
z: 9.04  
P>|z|: 0.000  
95% Conf. Interval: .6139946-.9538985

对于常量：

Coef.: .5469463  
Std. Err.: .075435  
z: 7.25  
P>|z|: 0.000  
95% Conf. Interval: .3990964-.6947962

regression multiple-regression stata

— 凯尔
source

44

通常，您不能从概率回归的输出中解释系数（至少不是以任何标准方式）。您需要解释回归变量的边际效应，即，当更改所有回归变量的某些值不变时，更改变量的值时，结果变量的（条件）概率会变化多少。这与您直接解释估计系数的线性回归情况不同。这是因为在线性回归情况下，回归系数是边际效应。

在概率回归中，一旦计算了概率回归拟合，就需要额外的计算步骤来获得边际效应。

线性和概率回归模型

概率回归：回想一下，在概率模型中，您正在模拟“成功”结果的（条件）概率，即，其中是标准正态分布的累积分布函数。这基本上说，在回归变量的条件下，结果变量为1 的概率是回归变量线性组合的特定函数。 $Y_i=1$
$P [Y_{i} = 1 ∣ X_{1 i}, \dots, X_{K i}; β_{0}, \dots, β_{K}] = Φ (β_{0} + \sum_{k = 1}^{K} β_{k} X_{k i})$ $\mathbb{P}\left[Y_i=1\mid X_{1i}, \ldots, X_{Ki};\beta_0, \ldots, \beta_K\right] = \Phi(\beta_0 + \sum_{k=1}^K \beta_kX_{ki})$ $\Phi(\cdot)$ $Y_i$
线性回归：将其与线性回归模型进行比较，其中

E (Y_{i} ∣ X_{1 i}, \dots, X_{K i}; β_{0}, \dots, β_{K}) = β_{0} + \sum_{k = 1}^{K} β_{k} X_{k i}

$\mathbb{E}\left(Y_i\mid X_{1i}, \ldots, X_{Ki};\beta_0, \ldots, \beta_K\right) = \beta_0 + \sum_{k=1}^K \beta_kX_{ki}$ 的（条件）均值是回归变量的线性组合。

边际效应

除了线性回归模型外，系数很少具有任何直接解释。我们通常是为有志于在其他条件不变的影响结果变量的功能回归量变化的影响。这就是边际效应衡量的概念。

线性回归：我现在想知道当我移动一个回归变量时结果变量的平均值移动了多少

\frac{\partial E (Y_{i} ∣ X_{1 i}, \dots, X_{K i}; β_{0}, \dots, β_{K})}{\partial X_{k i}} = β_{k}

$\frac{\partial \mathbb{E}\left(Y_i\mid X_{1i}, \ldots, X_{Ki};\beta_0, \ldots, \beta_K\right)}{\partial X_{ki}} = \beta_k$

但这只是回归系数，这意味着第个回归变量发生变化的边际效应就是回归系数。 $k$

概率回归：但是，很容易看出，概率回归并非如此

\frac{\partial P [Y_{i} = 1 ∣ X_{1 i}, \dots, X_{K i}; β_{0}, \dots, β_{K}]}{\partial X_{k i}} = β_{k} ϕ (β_{0} + \sum_{k = 1}^{K} β_{k} X_{k i})

$\frac{\partial \mathbb{P}\left[Y_i=1\mid X_{1i}, \ldots, X_{Ki};\beta_0, \ldots, \beta_K\right]}{\partial X_{ki}} = \beta_k\phi(\beta_0 + \sum_{k=1}^K \beta_kX_{ki})$ 是不一样的回归系数。这些是概率模型的边际效应以及我们所追求的数量。特别是，这取决于所有其他回归变量的值以及回归系数。这里是标准的正态概率密度函数。

ϕ (\cdot)

$\phi(\cdot)$

您如何计算此数量？应输入此公式的其他回归变量有哪些选择？值得庆幸的是，Stata在概率回归后提供了此计算，并提供了其他回归变量选择的一些默认值（这些默认值之间没有统一的协议）。

离散回归

请注意，由于我们使用了演算，因此上述大部分内容都适用于连续回归的情况。如果是离散回归，则需要使用离散更改。因此，例如，采用值的回归变量的离散变化为 $X_{ki}$ $\{0,1\}$

\begin{aligned} Δ_{X_{k i}} P [Y_{i} = 1 ∣ X_{1 i}, \dots, X_{K i}; β_{0}, \dots, β_{K}] & = β_{k} ϕ (β_{0} + \sum_{l = 1}^{k - 1} β_{l} X_{l i} + β_{k} + \sum_{l = k + 1}^{K} β_{l} X_{l i}) \\ - β_{k} ϕ (β_{0} + \sum_{l = 1}^{k - 1} β_{l} X_{l i} + \sum_{l = k + 1}^{K} β_{l} X_{l i}) \end{aligned}

$\small \begin{align} \Delta_{X_{ki}}\mathbb{P}\left[Y_i=1\mid X_{1i}, \ldots, X_{Ki};\beta_0, \ldots, \beta_K\right]&=\beta_k\phi(\beta_0 + \sum_{l=1}^{k-1} \beta_lX_{li}+\beta_k + \sum_{l=k+1}^K\beta_l X_{li}) \\ &\quad- \beta_k\phi(\beta_0 + \sum_{l=1}^{k-1} \beta_lX_{li}+ \sum_{l=k+1}^K\beta_l X_{li}) \end{align}$

计算Stata中的边际效应

概率回归：这是在Stata中进行概率回归后计算边际效应的示例。

webuse union   
probit union age grade not_smsa south##c.year
margins, dydx(*)

这是您将从margins命令中获得的输出

. margins, dydx(*)

Average marginal effects                          Number of obs   =      26200
Model VCE    : OIM

Expression   : Pr(union), predict()
dy/dx w.r.t. : age grade not_smsa 1.south year

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |    .003442    .000844     4.08   0.000     .0017878    .0050963
       grade |   .0077673   .0010639     7.30   0.000     .0056822    .0098525
    not_smsa |  -.0375788   .0058753    -6.40   0.000    -.0490941   -.0260634
     1.south |  -.1054928   .0050851   -20.75   0.000    -.1154594   -.0955261
        year |  -.0017906   .0009195    -1.95   0.051    -.0035928    .0000115
------------------------------------------------------------------------------
Note: dy/dx for factor levels is the discrete change from the base level.

例如，这可以解释为age变量的一个单位变化会使联合状态的概率增加0.003442。同样，从南方来，联盟身份的可能性降低 0.1054928

线性回归：作为最后的检验，我们可以确认线性回归模型中的边际效应与回归系数相同（略有扭曲）。运行以下回归并计算之后的边际效应

sysuse auto, clear
regress mpg weight c.weight#c.weight foreign
margins, dydx(*)

只是给您回归系数。请注意，有趣的事实是，Stata计算回归器的净边际效应，包括模型中包含的二次项的效应。

. margins, dydx(*)

Average marginal effects                          Number of obs   =         74
Model VCE    : OLS

Expression   : Linear prediction, predict()
dy/dx w.r.t. : weight foreign

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0069641   .0006314   -11.03   0.000    -.0082016   -.0057266
     foreign |    -2.2035   1.059246    -2.08   0.038    -4.279585   -.1274157
------------------------------------------------------------------------------

— 查克拉法蒂
source

我认为您对于离散回归案例的表达式是错误的。您正在采用的导数之差，但应该是。它应该只是RHS的第二个术语，而不是负号。

Δ_{X_{k}}

$\Delta_{X_k}$

P [Y = 1]

$P[Y=1]$

P [Y = 1]

$P[Y=1]$

— 拉维

1

而且，更简单地说，概率回归中的系数可以解释为“年龄增加一个单位对应于z得分中增加，以体现并集的可能性”（请参阅链接）。 $\beta{age}$

. webuse union

. keep union age grade

. probit union age grade

Iteration 0:   log likelihood =  -13864.23  
Iteration 1:   log likelihood = -13796.359  
Iteration 2:   log likelihood = -13796.336  
Iteration 3:   log likelihood = -13796.336  

Probit regression                               Number of obs     =     26,200
                                                LR chi2(2)        =     135.79
                                                Prob > chi2       =     0.0000
Log likelihood = -13796.336                     Pseudo R2         =     0.0049

------------------------------------------------------------------------------
       union |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         age |   .0051821   .0013471     3.85   0.000     .0025418    .0078224
       grade |   .0373899   .0035814    10.44   0.000     .0303706    .0444092
       _cons |  -1.404697   .0587797   -23.90   0.000    -1.519903   -1.289491
------------------------------------------------------------------------------

然后做

predict yhat

您会看到，对于obs 1，拟合值等于。将其插入函数以返回相应的概率： $\beta{age}*20 + \beta{grade}*12 + \beta{cons}$ normal()

di normal(.0051821*20 + .0373899*12 + -1.404697)
.19700266

因此，年龄增加一个单位对应于加入联盟的可能性的z得分的增加。 $\beta{age}$

— 布赖恩
source