Questions tagged «econometrics»

计量经济学是统计领域,涉及经济学的应用。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
选择LASSO变量后进行OLS有何意义?
最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。 我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释? 这里是一些相关的讨论: LASSO进行变量选择 使用套索/随机变量选择变量后使用树 如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?

2
指定具有多个时间段的差异模型中的差异
当我估算两个时间段的差异模型的差异时,等效回归模型为 一种。 Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} 其中TreatmentTreatmentTreatment是一个虚设它等于1,如果观察是从治疗组 和 ddd是伪,其等于1的时间段发生处理后 因此,该公式采用以下值。 对照组,治疗前:αα\alpha 对照组,治疗后:α+λα+λ\alpha +\lambda 治疗组,治疗前:α+γα+γ\alpha +\gamma 治疗组,治疗后: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta 因此,在两周期模型中,差异估计的差异为δδ\delta。 但是,如果我有多个治疗前后,关于d_t会发生什么dtdtd_t?我仍然使用假人来指示一年是在治疗之前还是之后? 还是在不指定每年是否属于治疗前或治疗后期间的情况下添加年份假人?像这样: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} 还是可以同时包含两者(即ÿË 一个[R dü 中号米ÿ+ λ dŤyeardummy+λdtyeardummy +\lambda d_t)? C。ÿ我小号Ť= α + γs* …

2
如果我们只对建模感兴趣,而对预测不感兴趣,则正则化功能会有所帮助吗?
如果我们仅对估计(和解释)模型参数感兴趣,而对预测或预测不感兴趣,则正则化功能会有所帮助吗? 如果您的目标是对新数据做出良好的预测,我将看到正则化/交叉验证非常有用。但是,如果您正在做传统经济学,而您所关心的只是估计呢?在这种情况下,交叉验证是否也有用?我在概念上遇到的困难是,我们实际上可以在测试数据上计算,但我们永远无法计算因为根据定义,从未观察到真实的。(假设存在一个真实的,即我们知道从中生成数据的模型族。)ββ\beta大号( ÿ,Y^)大号(ÿ,ÿ^)\mathcal{L}\left(Y, \hat{Y}\right)大号( β,β^)大号(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta 假设您的损失是。您将面临偏差方差的折衷,对吗?因此,从理论上讲,您最好进行一些正则化。但是,如何选择正则化参数呢?大号( β,β^) = ∥ β-β^∥大号(β,β^)=‖β-β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 我很高兴看到一个线性回归模型的简单数值示例,其系数为β≡ (β1个,β2,… ,βķ)β≡(β1个,β2,…,βķ)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k),其中研究人员的损失函数为∥ β- β^∥‖β-β^‖\lVert \beta - \hat{\beta} \rVert,或什至(β1个- β^1个)2(β1个-β^1个)2(\beta_1 - \hat{\beta}_1)^2。在实践中,如何在这些示例中使用交叉验证来改善预期损失? 编辑:约翰逊(DJohnson)将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf,与该问题相关。作者写道 机器学习技术...提供了一种预测\ hat {Y}的有条理的方法, ÿ^ÿ^\hat{Y}该方法(i)使用数据本身来决定如何进行偏差方差的权衡,并且(ii)可以搜索非常丰富的变量和函数形式。但是,一切都是有代价的:必须始终牢记,因为它们针对\ hat {Y}进行了调整,所以它们ÿ^ÿ^\hat{Y} (在没有其他许多假设的情况下)不会为\ hat {\ beta}提供非常有用的保证β^β^\hat{\beta}。 再次感谢DJohnson,这是另一篇相关论文:http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题: 将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是,基于交叉验证的正则化方法通常依赖于观察“基本事实”,即实际结果在交叉验证样本中。但是,如果我们的目标是最小化治疗效果的均方误差,则会遇到[11]所说的“因果推理的基本问题”:没有观察到因果关系的任何个体,因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。


4
魔术金钱树问题
我想到淋浴时会遇到这个问题,这是受投资策略启发的。 假设有一棵神奇的金钱树。每天,您都可以向货币树提供一定数量的货币,它将使货币树增加三倍,或者以50/50的概率销毁它。您会立即注意到,这样做平均可以使您赚钱,并且渴望利用金钱树。但是,如果您一次提供所有资金,那么您将损失50%的资金。不能接受!您是一个非常规避风险的人,因此您决定提出一项策略。您想最大程度地减少失去所有东西的几率,但同时也想赚到尽可能多的钱!您提出以下建议:每天,您将20%的当前资本提供给金钱树。假设您可以提供的最低价格是1美分,那么如果您以10美元开始,则需要31连胜损失所有资金。更重要的是,您赚取的现金越多,失去一切所需的连败时间就越长,太棒了!您迅速开始赚取大量现金。但是,随后一个想法浮现在脑海:您每天只能出价30%,赚更多的钱!但是,等等,为什么不提供35%?50%?有一天,当您眼中有大笔美元符号时,您将拥有数以百万计的资金流向金钱树,并提供您现金的100%,金钱树很快就会消耗掉。第二天,您在麦当劳工作。金钱树立即燃烧。第二天,您在麦当劳工作。金钱树立即燃烧。第二天,您在麦当劳工作。 是否可以提供不浪费全部现金的最佳百分比? (子)问题: 如果您要提供一个最佳百分比,这是静态的(即每天20%)还是随着您的资本增加而增加? 通过每天提供20%的资金,损失所有金钱的几率会随着时间的流逝而减少还是增加?随着时间的流逝,失去所有钱的几率会增加一定百分比的钱吗?

3
何时使用固定效果与使用集群SE?
假设您具有单个数据横截面,其中个人位于组内(例如,学校内的学生),并且您希望估计以下形式的模型:Y_i = a + B*X_i其中X是个人水平特征和a常数的向量。 在这种情况下,假设未观察到的组间异质性会使您的点估计B及其SE产生偏差,因为它与您所关注的独立变量相关。 一种选择是按小组(学校)对SE进行聚类。另一个是要包括FE组。另一个是同时使用。在这些选项之间进行选择时应该考虑什么?尤其不清楚为什么要按组将SE聚类并使用FE组。在我的特定情况下,我有35个小组,每个小组中有5,000个人。我已经按照本pdf中的讨论进行了讨论,但是对于为什么以及何时可以同时使用群集SE和固定效果尚不清楚。 (请讨论集群式SE与FE的优缺点,而不是建议我只采用多层次模型。)


3
结构计量经济学入门课
近年来,与简化形式的计量经济学相比,计量经济学的结构方法变得越来越流行。这涉及理论经济模型和统计数据的紧密结合,以便估算感兴趣的参数。以我们使用数据和统计方法的方式强加理论结构的目的是提供指导,有时甚至可以发现简化形式方法不容易估计的参数。即使对于非计量经济学家来说,这也可能是有趣的,因为模拟和抽样可能是结构估计中的重要组成部分,并且该技术也很适用于其他社会科学。 迄今为止,计量经济学的这一分支作为统计的分支似乎没有任何入门教科书。我只发现了更高级的资料,例如Choo和Shum(2013)的《结构计量经济学模型》或Reiss和Wolak的调查章节。 有人可以将我引向一组讲座或什至一本书(我只是还没有找到)来介绍结构计量经济学吗?理想情况下,这将基于具有不同方法的示例,包括代码或有关如何复制这些示例以更好理解的指南。 我知道一些研究论文,尤其是在工业组织中 国家依存模型(Rust,1987) 需求估算(Berry,1994; Berry,Levinson和Pakes,1995) 生产率估算(Olley和Pakes,1996) 估计市场力量(Nevo,2005; Sovinsky,2008) 但其中大多数很难遵循。因此,如果有人知道更温和的介绍,这将对您大有帮助。

5
当我的t统计量如此之大时,为什么我的R平方这么低?
我跑了回归有4个变量,都非常统计学显著,带T值≈7,9,26≈7,9,26\approx 7,9,26和313131(我说≈≈\approx因为它似乎无关包括小数),这是非常高的,清晰显著。但是R2R2R^2只有0.2284。我在误解此处的t值意味着它们不是吗?我在看到的T值的第一反应是,R2R2R^2将是相当高的,但也许这是一个高R2R2R^2?

3
IV分位数回归文献
在过去的几个月里,我为阅读今年夏天的硕士论文集中阅读了分位数回归。具体来说,我已经阅读了罗杰·科恩克(Roger Koenker)2005年有关该主题的大部分书籍。现在,我想将现有知识扩展到允许工具变量(IV)的分位数回归技术。这似乎是一个活跃的研究领域,并且正在迅速发展。 也许有人可以建议我: 有关IV分位数回归的论文或其他文献 这些不同的统计技术的简要概述 不同技术的利弊 我主要是在寻找文学知识,以使我入门并全面了解现有知识。因此,第一点很重要。第二和第三将是很好!我的兴趣主要在于横截面方法,但也欢迎使用面板方法。 提前致谢。


3
什么时候应该考虑使用GMM?
使计量经济学与众不同的一件事是使用广义矩法。 哪些类型的问题使GMM比其他估算技术更合适?从效率,减少偏差或更具体的参数估计的角度来看,使用GMM有什么好处? 相反,通过在MLE上使用GMM等会丢失什么?

5
M估计量的经验式Hessian可以不确定吗?
Jeffrey Wooldridge在他的 “横截面和面板数据的计量经济学分析”(第357页)中说,经验Hessian“对于我们正在处理的特定样本,不能保证为正定,甚至正半定”。 对于我来说,这似乎是错误的,因为(由于数字问题)Hessian必须是正半定的,这是因为M估计量的定义是参数的值,该参数使给定样本的目标函数最小化,并且众所周知,在(局部)最小值处,Hessian为正半定值。 我的说法正确吗? [编辑:该语句已在第二版中删除。这本书。见评论。 背景技术假设θ Ñ是通过最小化所获得的估计 1θˆNθ^N\widehat \theta_N1N∑i=1Nq(wi,θ),1N∑i=1Nq(wi,θ),{1 \over N}\sum_{i=1}^N q(w_i,\theta), 其中wiwiw_i表示第iii个观测值。 让我们表示的海赛qqq通过HHH, H(q,θ)ij=∂2q∂θi∂θjH(q,θ)ij=∂2q∂θi∂θjH(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j} 的渐近协方差θ Ñ涉及ë [ ħ (q ,θ 0)],其中θ 0θˆnθ^n\widehat \theta_nE[H(q,θ0)]E[H(q,θ0)]E[H(q,\theta_0)]θ0θ0\theta_0是真参数值。估计它的一种方法是使用经验式的Hessian Hˆ=1N∑i=1NH(wi,θˆn)H^=1N∑i=1NH(wi,θ^n)\widehat H=\frac{1}{N}\sum_{i=1}^N H(w_i,\widehat \theta_n) 它的确定性^ h这是个问题。HˆH^\widehat H

5
如何模拟价格?
我在matemathics stackexchange网站上问了这个问题,建议在这里问。 我正在从事一个业余项目,需要解决以下问题。 一点背景 假设有一些商品,其中包含功能和价格的描述。想象一下汽车和价格的清单。所有汽车都具有功能列表,例如引擎尺寸,颜色,马力,型号,年份等。对于每个品牌,都应如下所示: Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... 更进一步,带有价格的汽车列表以一定的时间间隔发布,这意味着我们可以访问历史价格数据。可能并不总是包括完全相同的汽车。 问题 我想了解如何根据此基本信息为任何汽车的价格建模,最重要的是不在初始清单中的汽车。 Ford, v6, red, automatic, 130hp, 2009 对于上述汽车,它与列表中的汽车几乎相同,但马力和年份略有不同。要为此定价,需要什么? 我正在寻找的是实用且简单的内容,但我也想听听有关如何对此类内容进行建模的更复杂方法。 我尝试过的 到目前为止,这是我一直在尝试的内容: 1)使用历史数据查找汽车X。如果找不到,则没有价格。当然这是非常有限的,并且只能将其与时间衰减结合使用,以随着时间的推移改变已知汽车的价格。 2)使用汽车功能加权方案和定价的样本汽车。基本上有一个基本价格,功能只是在某种程度上改变了价格。基于此得出任何汽车的价格。 事实证明,第一种方法不够用,第二种方法并不总是正确的,我可能没有使用权重的最佳方法。这似乎在保持权重上有些沉重,所以这就是为什么我认为也许有某种方法可以将历史数据用作统计信息,从而获得权重或获得其他收益。我只是不知道从哪里开始。 其他重要方面 集成到我拥有的一些软件项目中。通过使用现有的库或自己编写算法。 新的历史数据出现时快速重新计算。 有什么建议可以解决这样的问题吗?所有想法都值得欢迎。 在此先多谢,并期待阅读您的建议!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.