Questions tagged «econometrics»

计量经济学是统计领域,涉及经济学的应用。

1
条件同方差与异方差
摘自《计量经济学》,作者:Fumio Hayashi(第一章): 无条件同方性: 误差项E(εᵢ²)的第二矩在整个观测中都是恒定的 在所有观察结果中,函数形式E(εᵢ²| xi)是恒定的 有条件的同方性: 解除了误差项E(ε)²)的第二矩在整个观测值中恒定的限制 因此,条件二阶矩E(εᵢ²| xi)可能由于对xᵢ的依赖而在观测中有所不同。 所以,我的问题是: 有条件的同方性与异方性有何不同? 我的理解是,当第二个时刻的观测值不同时,存在异方差。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
预测R中的有序logit
我正在尝试进行有序的logit回归。我正在像这样运行模型(只是一个愚蠢的小模型,它根据收入和人口指标来估算市场中的公司数量)。我的问题是关于预测。 nfirm.opr<-polr(y~pop0+inc0, Hess = TRUE) pr_out<-predict(nfirm.opr) 当我运行预测(我试图使用它来获取预测的y)时,输出为0、3或27,这决不会反映基于我根据系数的人工预测应该看起来像是预测估计和截距。有谁知道如何为我订购的logit模型获得“准确”的预测? 编辑 为了澄清我的担忧,我的回答数据包含所有级别的观察结果 >head(table(y)) y 0 1 2 3 4 5 29 21 19 27 15 16 正如我的预测变量似乎在聚集 > head(table(pr_out)) pr_out 0 1 2 3 4 5 117 0 0 114 0 0

2
对数差异时间序列模型是否优于增长率?
我经常看到作者估计“对数差异”模型,例如 log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t 我同意这是恰当的关联在变化的百分比而为。xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) 但是对数差异是一个近似值,似乎无需对数转换也可以估算一个模型,例如 yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - y_{t-1}) / y_{t-1}=\alpha+\beta x_t 此外,增长率将精确地描述百分比变化,而对数差异将仅近似于百分比变化。 但是,我发现对数差异法的使用频率更高。实际上,使用增长率似乎与解决第一个差异一样适合解决平稳性问题。实际上,我发现将对数变量转换回级别数据时,预测会变得有偏差(在文献中有时称为重新转换问题)。yt/yt−1yt/yt−1y_t/y_{t-1} 与增长率相比,使用对数差异有什么好处?增长率转换是否存在任何固有问题?我猜想我遗漏了一些东西,否则更频繁地使用该方法似乎很明显。

2
各个级别面板数据之间的差异
用单个级别面板数据指定差异模型中差异的正确方法是什么? 这里是设置:假设我在城市中嵌入了多年的个人级别面板数据,并且处理方式在城市年份级别上有所不同。形式上,让为个别的结果在城市和年和对是否干预影响城市的虚拟在一年。典型的DiD估算器(例如Bertrand等人(2004,第250页)中概述的估算器)基于简单的OLS模型,其中具有针对城市和年份的固定影响项:我小号吨d 小号吨小号吨ÿ我小号Ťÿ一世sŤy_{ist}一世一世isssŤŤtd小号ŤdsŤD_{st}sssŤŤt yist=As+Bt+cXist+βDst+ϵistÿ一世sŤ=一种s+乙Ť+CX一世sŤ+βdsŤ+ϵ一世sŤ y_{ist} = A_{s} + B_t + cX_{ist} + \beta D_{st} + \epsilon_{ist} 但是,该估计量是否忽略了个人层面的面板结构(即,对城市中每个人的多次观察)?用个体水平的固定效应项扩展该模型是否有意义?许多DiD应用程序使用重复的横截面数据,而没有单独级别的面板数据。Si小号一世S_i Bertrand,Marianne,Esther Duflo和Sendhil Mullainathan。2004年。“我们应该相信差异差异估计有多少?” 经济学季刊119(1):249–75。

2
贝叶斯事件研究方法的计量经济学
事件研究在经济学和金融学中很普遍,可以确定事件对股票价格的影响,但是它们几乎总是基于常识性推理。OLS回归-在与事件窗口不同的参考期间内-通常用于确定对资产的正常收益进行建模所需的参数。然后,在从到的指定事件窗口内的事件之后,确定资产上累积的异常收益()的统计显着性。假设检验用于确定这些收益是否显着并因此确实异常。从而:i T 1 T 2汽车CAR\text{CAR}一世iiŤ1个T1T_1Ť2T2T_2 H0:汽车一世= 0H0:CARi=0H_0 : \text{CAR}_i = 0,其中 汽车一世= ∑Ť2t = T1个增强现实我,Ť= ∑Ť2t = T1个([R我,Ť- è [ [R我,Ť] )CARi=∑t=T1T2ARi,t=∑t=T1T2(ri,t−E[ri,t])\text{CAR}_i = \sum_{t=T_1}^{T_2} \text{AR}_{i,t} = \sum_{t=T_1}^{T_2} \left( r_{i,t} -\mathbb{E}[r_{i,t}] \right)和 è [ [R我,Ť]E[ri,t]\mathbb{E}[r_{i,t}]是模型预测的资产收益。 如果我们的观察数量足够大,我们可以假定资产收益率分布的渐近正态性,但是对于较小的样本量可能无法验证。 可以说,因此,单企业,单事件的研究(例如在诉讼中要求的)应遵循贝叶斯方法,因为无限多次重复的假设比在这种情况下“更难以验证”多家公司。然而,频频主义者的做法仍然是惯例。 鉴于有关该主题的文献稀少,我的问题是如何使用贝叶斯方法最好地进行事件研究(类似​​于上面概述的方法,并在MacKinlay,1997年进行了总结)。 尽管这个问题是在公司财务实证研究的背景下提出的,但实际上是关于贝叶斯回归和推论的计量经济学,以及常识和贝叶斯方法背后的推理差异。特别: 我应该如何最好地使用贝叶斯方法来估计模型参数(假设对贝叶斯统计量有理论了解,但几乎没有经验)。 一旦计算出累积的异常收益(使用模型的正常收益),如何测试统计显着性? 如何在Matlab中实现呢?

1
测试两个回归系数是否显着不同(理想情况下为R)
如果这是一个重复的问题,请指出正确的方法,但是我在这里发现的相似问题还不够相似。假设我估计模型Y=α+βX+uY=α+βX+uY=\alpha + \beta X + u 并找到。但是,事实证明,我怀疑,尤其是。因此,我估计了模型并找到了重要证据。然后如何测试是否?我考虑过运行另一个回归并测试。这是最好的方法吗?X = X 1 + X 2 ∂ ý / ∂ X 1 ≠ ∂ ý / ∂ X 2 ∂ ý / ∂ X 1 > ∂ ý / ∂ X 2 Ŷ = α + β 1 X 1 + β 2 …

1
工具变量如何解决选择偏见?
我想知道工具变量如何解决回归中的选择偏差。 这是我正在尝试的示例:在“ 大多数无害计量经济学”中,作者讨论了与服役和晚年收入有关的IV回归。问题是,“服兵役会增加还是减少未来的收入?” 他们在越南战争的背景下调查了这个问题。我知道不能随机分配兵役,这是因果推理的问题。 为了解决这个问题,研究人员使用了征兵资格(如“您的征兵号码被称为”)作为实际服兵役的工具。这是有道理的:越南选秀大会随机分配了年轻的美国士兵入伍(从理论上讲,选秀者是否真的对我的问题有所帮助)。我们的其他IV条件似乎是可靠的:征兵资格和实际服兵役之间有着密切的正相关关系。 这是我的问题。似乎您会出现自我选择偏见:也许较富有的孩子可以退出越南服务,即使他们的选秀号码被打电话了。(如果实际并非如此,为我的问题,让我们假装)。如果这种自我选择在我们的样本中造成系统性偏见,那么我们的工具变量如何解决这一偏见?我们是否必须将推论范围缩小到“无法逃脱草案的人的类型?” 还是IV以某种方式挽救了我们推论的那一部分?如果有人能解释它是如何工作的,我将非常感谢。

1
基尼系数和误差范围
我有一个时间序列的数据,每个时间点的N = 14个计数,我想在每个时间点计算此估计的基尼系数和标准误差。 由于我在每个时间点只有N = 14个计数,因此我通过计算折刀方差来进行计算,即从方程7汤臣Ogwang的标准误差”“计算基尼系数和它的一种方便的方法”。其中G ^(Ñ,ķ)是N个值的无元件的基尼系数ķ和 ˉ ģ(X)是平均的的G ^(Ñ,ķ)。变种(G )= n − 1ñ× ∑ñk = 1(G (n ,k )− G¯(n ))2变种⁡(G)=ñ-1个ñ×∑ķ=1个ñ(G(ñ,ķ)-G¯(ñ))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n ,k )G(ñ,ķ)G(n,k)ķķkG¯(x )G¯(X)\bar{G}(x)G (n ,k )G(ñ,ķ)G(n,k) 上面的方差公式的直接天真实现。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested by Tomson Ogwang …

1
如何用二元工具和二元内生变量解释工具变量回归中的第二阶段系数?
(相当长的帖子,对不起。它包含许多背景信息,请随时跳到底部的问题。) 简介:我正在做一个项目,我们试图确定二进制内生变量对连续结果。我们提出了一个工具,我们坚信它是随机分配的。x1x1x_1yyyz1z1z_1 数据:数据本身是一个面板结构,其中约34,000个观测值分布在1000个单位和约56个时间段内。对于大约700个(2%​​)的观测值,取值为1;对于大约3000个(9%),取值为1 。111个(0.33%)观测值在和上均得分为1,如果观测值在上也得分为1,则其在上得分为1的可能性是原来的两倍。x1x1x_1z1z1z_1z1z1z_1x1x1x_1x1x1x_1z1z1z_1 估计:我们通过Stata的ivreg2-过程估计以下2SLS模型: x1=π0+π1z1+Zπ+vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v y=β0+β1x∗1+Zβ+uy=β0+β1x1∗+Zβ+uy = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u 其中是其他外生变量的向量, 是从第一阶段开始的的预测值,而和是误差项。ZZZx∗1x1∗x_1^*x1x1x_1uuuvvv 结果:一切似乎都运行良好;的估计在第一阶段非常重要,而的估计在第二阶段非常重要。所有符号均符合预期,包括其他外生变量的符号。但是,问题在于(感兴趣的系数)的估计值太大了(或者至少根据我们一直在解释它的方式),这令人难以置信。π1π1\pi_1β1β1\beta_1β1β1\beta_1 yyy范围为2到26,平均值和中位数为17,但是的估计值范围为30到40(取决于规格)!β1β1\beta_1 弱IV:我们的第一个想法是这是由于乐器太弱所致。就是说,它与内生变量之间的关系不大,但事实并非如此。为了检查该仪器的弱点,我们使用Finlay,Magnusson和Schaffer的weakiv-package,因为它提供的测试对于违反假设的情况很健壮(在此处具有相关性,因为我们拥有面板数据并将我们的SE聚类在单位级别)。i.i.d.i.i.d.i.i.d. 根据他们的AR测试,第二阶段系数的95%置信区间的下限在16到29之间(再次取决于规格)。对于所有接近零的值,拒绝概率实际上为1。 有影响的观察结果: 我们尝试估计模型,其中每个单元都被单独删除,每个观察值都被单独删除,并且单元簇被删除。没有真正的改变。 提议的解决方案:有人建议我们不应该以原始度量(0-1)来总结被测量的估计效果,而应该以其预测版本的度量来总结。范围是-0.01至0.1,平均值和中位数约为0.02,SD约为0.018。如果我们通过的一个SD增加来总结的估计效果,那将是 (其他规范给出的结果几乎相同)。这将是更合理的方法(但仍然很重要)。似乎是完美的解决方案。除了我从未见过有人这样做;每个人似乎都只是使用原始内生变量的度量来解释第二阶段系数。x1x1x_1x∗1x1∗x_1^*x1x1x_1x∗1x1∗x_1^*0.018∗30=0.540.018∗30=0.540.018*30 = 0.54 问题:在IV模型中,使用预测变量的度量来总结内生变量增加的估计效果(实际上是LATE)是否正确?在我们的案例中,该指标是预测概率。 注意:即使我们有一个二进制内生变量(使第一阶段成为LPM),我们仍使用2SLS。遵循Angrist&Krueger(2001):“仪器变量与识别:从供需到自然实验”),我们还尝试了Adams,Almeida和Ferreira(2009)中使用的三阶段程序:了解创始人-首席执行官与公司绩效之间的关系”。后一种方法由一个概率模型和一个2SLS组成,产生的系数更小且更合理,但是如果以0-1度量(大约9-10)进行解释,它们仍然很大。手动计算得到的结果与Cerulli ivtreatreg中的probit-2sls-option的结果相同。

3
线性回归中的线性假设仅仅是的定义吗?
我正在修改线性回归。 格林的教科书指出: 现在,在线性回归模型上当然会有其他假设,例如。该假设与线性假设(实际上定义为)相结合,将结构置于模型上。E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon 但是,线性假设本身不会在我们的模型中添加任何结构,因为可以是完全任意的。对于任何变量,无论两者之间的关系如何,我们都可以定义一个使得线性假设成立。因此,线性“假设”的确可以称为一个定义的,而不是一个假设。ϵϵ\epsilonX,yX,yX, yϵϵ\epsilon εϵϵ\epsilon 因此我想知道: 格林草率吗?他实际上应该写出:吗?这是一个“线性假设”,实际上将结构放在模型上。E(y|X)=XβE(y|X)=XβE(y|X)=X\beta 还是我必须接受线性假设不将结构放在模型上而是仅定义一个,而其他假设将使用定义将结构放在模型上吗?εϵϵ\epsilonϵϵ\epsilon 编辑:由于其他假设似乎有些混乱,因此让我在此处添加全套假设: 这摘自Greene,《计量经济学分析》,第7版。p。16。

2
条件均值独立性意味着OLS估计量的无偏性和一致性
考虑以下多元回归模型:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} 这里是列向量; a矩阵; a列向量; Z a n \ times l矩阵;\增量一升\次1个的列向量; 和U,误差项,n \ times1列向量。YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 题 我的讲师是《计量经济学概论》教科书,第三版。 詹姆斯·H·斯托克(James H. Stock)和马克·沃森(Mark W.Watson)281,和《计量经济学:荣誉考试复习会》(PDF),第2页。7,向我表达了以下内容。 如果我们假设所谓的条件平均独立性,根据定义,这意味着E(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} 并且如果满足最小二乘假设,但条件均值零假设(因此,我们假设)(请参阅1 -3以下),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 然后,在这个较弱的假设集合下,中的OLS估计量保持无偏且一致。β^β^\hat{\beta}ββ\beta(1)(1)(1) 我如何证明这一主张?即,1和2以上意味着OLS估计给了我们一个公正的和一致的估计?是否有任何研究文章证明这一主张?ββ\betaββ\beta 评论 最简单的情况是通过考虑线性回归模型给出并证明了OLS估计的如果每个,则是无偏的。Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Yi=β0+β1Xi+β2Zi+ui,i=1,2,…,n,Y_i=\beta_0+\beta_1X_i+\beta_2Z_i+u_i,\quad i=1,2,\ldots,n,β 1 β 1 È (û 我| X 我,Ž 我)= È (û 我| Ž 我)我β^1β^1\hat{\beta}_1β1β1\beta_1E(ui|Xi,Zi)=E(ui|Zi)E(ui|Xi,Zi)=E(ui|Zi)E(u_i|X_i,Z_i)=E(u_i|Z_i)iii 证明无偏的假设和共同正态分布UiUiU_iZiZiZ_i 定义,然后和因此,可以重写为通过,得出现在,由于和共同为正态分布,因此正态分布的理论请参见。推导多元正态分布的条件分布,表示(实际上,我们不需要假设联合正态性,而只需假设此同一性)对于某乘矢量V=U−E(U|X,Z)V=U−E(U|X,Z)V=U-E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)U=V+E(U|X,Z)E(V|X,Z)=0.(*)(*)E(V|X,Z)=0.E(V|X,Z)=0\tag{*}.(1)(1)(1)Y=Xβ+Zδ+E(U|X,Z)+V.(3)(3)Y=Xβ+Zδ+E(U|X,Z)+V.Y=X\beta+Z\delta+E(U|X,Z)+V.\tag{3}(2)(2)(2)Y=Xβ+Zδ+E(U|Z)+V.(4)(4)Y=Xβ+Zδ+E(U|Z)+V.Y=X\beta+Z\delta+E(U|Z)+V.\tag{4}UiUiU_iZiZiZ_i …

1
IV-probit的似然函数的推导
因此,我有一个二元模型,其中是潜在的不可观察变量,而y_1 \ in \ {0,1 \}在观察值中。y_2确定y_1,因此z_2是我的工具。简而言之,模型就是这样。 \ begin {eqnarray} y_1 ^ *&=&\ delta_1 z_1 + \ alpha_1 y_2 + u_1 \\ y_2&=&\ delta_ {21} z_1 + \ delta_ {22} z_2 + v_2 = \ textbf {z} \ delta + v_2 \\ y_1&=&\ text {1} [y ^ *> 0] \ end …

2
为什么因变量中的测量误差不会使结果偏倚?
当自变量存在测量误差时,我知道结果将偏向于0。当因变量测量有误差时,他们说这只会影响标准误差,但这对我来说没有多大意义,因为我们估计的影响不是对原始变量的影响,而是对其他一些加上误差的影响。那么这如何不影响估计呢?在这种情况下,我还可以使用工具变量来消除此问题吗?XXXYYYYYY

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.