Questions tagged «econometrics»

计量经济学是统计领域,涉及经济学的应用。

1
成功的实际应用中的计量经济学方法的书面/可复制示例?
这个问题听起来可能很广泛,但这就是我想要的。我知道有许多关于计量经济学方法的优秀书籍,以及关于计量经济学技术的许多出色的说明性文章。如此CrossValidated 问题中所述,甚至还有极好的可重复的计量经济学示例。实际上,此问题中的示例与我要寻找的非常接近;这些示例中唯一缺少的是它们仅是研究报告,而没有提及研究结果在实际应用中的表现。 我正在寻找的是计量经济学理论在现实世界中应用的已记录/可复制的示例,这些示例理想地具有以下特征: 它们应该是可重复的,即,包含的详细描述(并指针)的数据,计量技术,和代码。理想情况下,代码将使用R语言。 根据详细量化的成功指标,应该有详细的文档显示该技术在现实世界中取得了成功(例如“该技术有助于增加收入,因为它可以改善需求预测,这是其中涉及的数字”) 我在这里广泛使用“ 计量经济学 ”一词-我的意思是任何种类的数据挖掘,统计数据分析,预测,预测或机器学习技术。查找此类示例的一个直接问题是:计量经济学的许多成功应用都是在营利性环境中完成的,因此是专有的,因此,如果一项技术行之有效,则可能不会公开(特别是在专有交易的情况下)策略),但我仍然希望有一些已发布的示例至少具有上述属性(2),如果不是同时具有(1)和(2)。


4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
正态分布误差和中心极限定理
在Wooldridge的《计量经济学入门》一书中有一个报价: 证明误差的正态分布合理的参数通常是这样的:由于是影响的许多不同的未观察因素的总和,因此我们可以调用中心极限定理来得出具有近似正态分布的结论。uuuyyyuuu 此引用与线性模型假设之一有关,即: u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) 其中uuu是总体模型中的误差项。 现在,据我所知,中心极限定理指出 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (其中Yi¯¯¯¯¯Yi¯\overline{Y_i} 是从任何具有均值μμμ和方差σ^ 2的总体中抽取的随机样本的平均值σ2σ2σ^2) 接近标准正态变量的n→∞n→∞n \rightarrow \infty。 题: 帮助我了解Z_i的渐近正态性如何ZiZiZ_i暗示u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)



1
差异数据设置
使用差异回归模型中的差异哪种设置正确 ÿ我小号Ť= α +γs* T+ λdŤ+ δ∗ (T∗dŤ)+ϵ我小号Ťÿ一世sŤ=α+γs∗Ť+λdŤ+δ∗(Ť∗dŤ)+ϵ一世sŤY_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist} 如果观察到的是治疗组,则T是一个等于1的假人,而d是在发生治疗后的时间段中等于1的假人。 1)每个组和时间的随机样本(即4个随机样本) 要么 2)在两个时间段内跟踪相同单位的面板数据? 有关系吗?如果没有,在任何情况下都可以使用OLS吗?


1
预测销售的独特(?)想法
我正在开发模型来预测产品的总销售额。我大约有一年半的预订数据,因此我可以进行标准的时间序列分析。但是,对于每个已关闭或丢失的“机会”(潜在销售),我也有很多数据。“机会”沿着管道的各个阶段进行,直到关闭或丢失为止。他们还具有有关潜在买家,销售人员,互动历史记录,行业,预计预订量等的关联数据。 我的目标是最终预测总预订量,但我想考虑所有有关当前“机会”的信息,这是预订的真正“根本原因”。 我的一个想法是依次使用两个不同的模型,如下所示: 使用历史“机会”构建一个模型,该模型可预测单个“机会”引起的预订量(此步骤中,我可能会使用随机森林或什至是简单的线性回归)。 使用1中的模型来预测当前正在准备中的所有“机会”的估计预订量,然后基于每个“机会”被创建的月份对这些估计值求和。 使用时间序列模型(可能是ARIMA?),使用1.5年的每月历史时间序列数据和该月创建的所有“商机”的预测总预订量(使用1中的模型)。 可以肯定的是,这些机会转化为实际的预订会有滞后,但是时间序列模型应该能够应对滞后。 听起来如何?我已经阅读了很多有关时间序列和预测销售的信息,从我的判断中可以看出,这是一种独特的方法。因此,我非常感谢您的任何反馈!

1
使用文本挖掘/自然语言处理工具进行计量经济学
我不确定这个问题在这里是否完全合适,否则请删除。 我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息,最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。 自然语言处理对此有多有用?还有哪些其他有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?会有所帮助吗,以前做过类似的事情吗?就回报而言,是否值得?也就是说,我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究? 可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目,有可能申请更多的资金。如果绝对必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语,而不是英语。 关于资格,我主要接受计量经济学方面的培训,并且在Hastie等人的水平上对计算统计有所了解。书。我知道Python,R,Stata,并且可能很快就会熟悉Matlab。给定这些库,我认为Python是为此选择的工具。如果相关的话,根本就不需要定性方法方面的培训,但是我知道我可以联系一些人。 我很高兴为此提供任何输入,即,如果这可能有用,那么,从哪里开始阅读,以及特别关注哪些工具。

3
随机分配:为什么要打扰?
随机分配很有价值,因为它可以确保治疗与潜在结果的独立性。这就是如何导致对平均治疗效果的无偏估计。但是其他分配方案也可以系统地确保治疗与潜在结果的独立性。那么为什么我们需要随机分配呢?换句话说,与非随机分配方案相比,随机分配又有什么优点呢? 令为治疗分配的向量,其中每个元素为0(未分配给治疗的单位)或1(分配给治疗的单位)。在一个JASA制品,安格里斯特,Imbens,和Rubin(1996,446-47)说治疗分配是随机的,如果表示所有\ mathbf {c}和\ mathbf {c'},使得\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c'},其中\ iota是一个所有元素等于1的列向量。ZZ\mathbf{Z}ZiZiZ_iPr(Z=c)=Pr(Z=c′)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c}c′c′\mathbf{c'}ιTc=ιTc′ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 换句话说,如果包括m个治疗分配的任何分配向量与包括m个治疗分配的任何其他向量一样有可能,则分配ZiZiZ_i是随机的。mmmmmm 但是,为了确保潜在结果与治疗分配的独立性,足以确保研究中的每个单元都具有相等的分配给治疗的可能性。即使大多数治疗分配向量的选择概率为零,也很容易发生这种情况。即,即使在非随机分配下也可能发生。 这是一个例子。我们想用四个单元运行一个实验,其中两个单元将被正确处理。有六个可能的分配向量: 1100 1010 1001 0110 0101 0011 每个数字中的第一个数字表示是否已治疗第一个单元,第二个数字表示是否已治疗第二个单元,依此类推。 假设我们进行了一个实验,其中排除了赋值向量3和4的可能性,但是其中每个其他向量的选择机会均等(25%)。从AIR的意义上讲,该方案不是随机分配。但可以预料的是,这将导致平均治疗效果的无偏估计。那绝不是偶然的。任何给予受试者相等分配给治疗可能性的分配方案,将允许对ATE进行无偏估计。 那么:为什么我们需要AIR的随机分配?我的论点植根于随机推理。如果有人以基于模型的推理来思考,那么AIR的定义似乎更可辩护吗?

1
当预测模型中的响应变量不同时,如何合并预测?
介绍 在预测组合中,一种流行的解决方案是基于某些信息准则的应用。以对模型估计的Akaike准则为例,可以从计算的差,然后将RP_j = e ^ {(AIC ^ *-AIC_j)/ 2}解释为模型j的相对概率是真实的。然后将权重定义为一个我CĴAICjAIC_jĴjj一个我CĴAICjAIC_j一个我C∗=分Ĵ一个我CĴAIC∗=minjAICjAIC^* = \min_j{AIC_j}[RPĴ=Ë(一我C∗− A ICĴ)/ 2RPj=e(AIC∗−AICj)/2RP_j = e^{(AIC^*-AIC_j)/2}Ĵjj wĴ=[RPĴ∑Ĵ[RPĴwj=RPj∑jRPjw_j = \frac{RP_j}{\sum_j RP_j} 问题 我试图克服的一个困难是,这些模型是根据不同转换的响应(内生)变量估算的。例如,某些模型基于年增长率,另一种模型基于季度间增长率。因此,提取的一个我CĴAICjAIC_j值不能直接比较。 尝试过的解决方案 由于重要的是一个我CAICAIC的差异,因此可以采用基本模型的一个我CAICAIC(例如,我尝试提取lm(y~-1)不带任何参数的模型),该AIC对于响应变量转换是不变的,然后比较第Ĵjj个模型与AIC的差异。基本模型一个我CAICAIC。然而在这里似乎不足之处遗迹-区别是由响应变量的转型的影响。 结束语 注意,可以使用“根据相同的响应变量估计所有模型”之类的选项,但是非常耗时。如果没有其他方法可以解决问题,我想在做出痛苦的决定之前先寻求快速的“治愈”方法。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.