Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。

2
创建综合数据集的一些标准做法是什么?
作为上下文:当处理非常大的数据集时,有时会问我们是否可以创建一个综合数据集,以“了解”预测变量与响应变量之间的关系,或预测变量之间的关系。 多年来,我似乎遇到了一次性的综合数据集(看起来像是临时创建的),或者遇到了结构化的数据集,这些数据集特别适合研究人员提出的建模方法。 我相信我正在寻找创建综合数据集的标准方法。尽管引导重采样是创建综合数据集的一种常用方法,但它不满足我们 先验知道结构的条件。此外,与其他交换引导程序样本本质上需要交换数据,而不是数据生成方法。 如果我们可以将参数分布拟合到数据中,或者找到足够接近的参数化模型,那么这就是我们可以生成综合数据集的一个示例。 还有什么其他方法?我对高维数据,稀疏数据和时间序列数据特别感兴趣。对于高维数据,我将寻找可以生成感兴趣的结构(例如协方差结构,线性模型,树等)的方法。对于时间序列数据,来自FFT,AR模型或各种其他过滤或预测模型的分布似乎是一个开始。对于稀疏数据,再现稀疏模式似乎很有用。 我相信这些只是表面上的内容-这些是启发式的,不是正式的做法。是否有参考或资源来生成从业人员应了解的综合数据? 注意1:我意识到这个问题是针对文献的,该文献如何像一个特定的时间序列模型那样生成数据。这里的区别在于实践,特别是为了指示已知结构(我的问题),而不是与现有数据集的相似性/保真度。在我的情况下,不必像已知结构一样具有相似性,尽管相似性比不相似性更受重视。模型显示有希望的奇特的综合数据集比现实的模拟更受青睐。 注2:维基百科关于综合数据的条目指出,鲁宾和费恩伯格等名人已经解决了这个问题,尽管我没有找到最佳实践的参考。知道诸如《应用统计年鉴》(或《 AOS》)或这些或其他期刊的评论工作将使哪些事情通过会很有趣。用简单而异想天开的术语,人们可能会问,“(可以接受)煮熟”和“煮得太熟”之间的界限在哪里存在? 注3:尽管它不会影响问题,但使用场景是对各种大型,高维数据集进行建模,其中研究议程是学习(通过人和机器;-)数据的结构。与单变量,双变量和其他低维方案不同,该结构不容易推断。随着我们对结构的深入了解,能够生成具有相似属性的数据集是很重要的,以便了解建模方法如何与数据交互(例如,检查参数稳定性)。但是,有关低维合成数据的较旧指南可能是一个起点,可以扩展或适用于高维数据集。


2
通用线性模型与广义线性模型(具有身份链接功能?)
这是我的第一篇文章,所以如果我不遵循某些标准,请对我放轻松!我搜索了我的问题,但没有任何反应。 我的问题主要涉及通用线性建模(GLM)与广义线性建模(GZLM)之间的实际差异。在我的情况下,与GZLM相比,ANCOVA中将有一些连续变量作为协变量,而有一些因子。我想研究每个变量的主要影响,以及我将在模型中概述的三种交互作用。我可以看到这个假设正在ANCOVA或使用GZLM进行测试。在某种程度上,我了解运行像ANCOVA这样的常规线性模型的数学过程和推理,并且我有点理解GZLM允许使用链接函数来连接线性模型和因变量(好吧,我撒谎,也许我不知道)非常了解数学)。我真正的不 无法理解在GZLM中使用的概率分布是正常的(即,身份链接功能?)时,进行一种分析而不是进行另一种分析的实际差异或原因。当我一个接一个地运行时,我得到了截然不同的结果。我可以跑吗?我的数据有些不正常,但在ANCOVA和GZLM中都可以使用。在两种情况下都支持我的假设,但在GZLM中,p值“更好”。 我的想法是,ANCOVA是一个线性模型,具有使用身份链接函数的正态分布因变量,这正是我可以在GZLM中输入的内容,但是它们仍然有所不同。 如果可以,请为我阐明这些问题! 根据第一个答案,我还有另一个问题: 如果除使用的显着性检验(即F检验与Wald Chi Square)相同以外,是否最合适?ANCOVA是“首选方法”,但我不确定为什么F检验会更可取。有人可以帮我阐明这个问题吗?谢谢!

4
您对这些分析技术是否有全球视野?
我目前正在一个项目上,就像我们所有人一样,我基本上需要了解输出与输入。这里的特殊性是一次将数据提供给我,因此我想在每次收到新的时更新分析。我相信这被称为“在线”处理,而不是“批处理”,在批处理中,您拥有所需的所有数据,并同时使用所有数据进行计算。x (y ,x )(y ,x )yyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) 因此,我四处寻找想法,最后得出的结论是,世界分为三个部分: 第一部分是统计和计量经济学领域。人们在那里进行OLS,GLS,仪器变量,ARIMA,测试,差异差异,PCA等。该焊盘主要由线性决定,并且仅进行“批处理”。 第二部分是机器学习和诸如人工智能,有监督和无监督学习,神经网络和SVM之类的词汇的孤岛。“批处理”和“在线”处理都在这里完成。 第三部分是我刚刚发现的整个大陆,似乎大部分由电气工程师组成。在那里,人们经常在他们的工具中添加“过滤器”一词,他们发明了很棒的东西,例如Widrow-Hoff算法,递归最小二乘,Wiener过滤器,Kalman过滤器,以及可能还没有发现的其他东西。显然,他们主要进行“在线”处理,因为它可以更好地满足他们的需求。 所以我的问题是,您是否对这一切抱有全球视野?我的印象是,世界上这三个部分彼此之间的交谈不多。我错了吗?有一个统一的大理论来理解与吗?您是否知道可以为该理论奠定基础的任何资源?XYYYXXX 我不确定这个问题是否真的有意义,但是在所有这些理论之间我有点迷茫。我想象对“我应该使用这个还是那个?”这个问题的答案。将是“这取决于您要做什么(以及您的数据)”。但是,我觉得这三个世界试图回答同一问题(?),因此应该有可能对这一切有更高的了解,并深刻理解每种技术的特殊性。y=f(x)y=f(x)y=f(x)

6
结构方程建模简介
同事问我在这个问题上有什么帮助,我真的不知道。他们在一项研究中对某些潜在变量的作用进行了假设,然后一名裁判要求他们在SEM中将其正式化。由于他们的需求似乎并不困难,我想我会尝试一下……现在,我只是在寻找有关该主题的不错的入门指南! Google并不是我真正的朋友。提前谢谢了... PS:我读了结构方程模型利用SEM包中的R由约翰·福克斯,以及本文由同一作者。我认为这足以满足我的目的,无论如何欢迎其他参考。




4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
使用多重插补时如何为混合效果模型的方差成分组合置信区间
多重插补(MI)的逻辑是不对缺失值进行一次插补,而是对几次(通常为M = 5)次进行插补,从而得出M个完整的数据集。然后使用完整数据方法分析M个完整的数据集,然后使用Rubin公式将M个估计值及其标准误差组合在一起,以获得“总体”估计值及其标准误差。 到目前为止很好,但是当涉及到混合效果模型的方差成分时,我不确定如何应用此配方。方差分量的采样分布是不对称的-因此,不能以典型的“估计±1.96 * se(估计)”形式给出相应的置信区间。因此,R包lme4和nlme甚至不提供方差分量的标准误差,而仅提供置信区间。 因此,我们可以在数据集上执行MI,然后在M个完整的数据集上拟合相同的混合效应模型后,获得每个方差分量的M个置信区间。问题是如何将这M个区间合并为一个“总体”置信区间。 我想这应该是可能的-一篇文章的作者(yucel和demirtas(2010)非正常随机效应对MI推理的影响)似乎已经做到了,但是他们没有确切解释如何做。 任何提示将是非常义务! 干杯啦

2
指定具有多个时间段的差异模型中的差异
当我估算两个时间段的差异模型的差异时,等效回归模型为 一种。 Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} 其中TreatmentTreatmentTreatment是一个虚设它等于1,如果观察是从治疗组 和 ddd是伪,其等于1的时间段发生处理后 因此,该公式采用以下值。 对照组,治疗前:αα\alpha 对照组,治疗后:α+λα+λ\alpha +\lambda 治疗组,治疗前:α+γα+γ\alpha +\gamma 治疗组,治疗后: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta 因此,在两周期模型中,差异估计的差异为δδ\delta。 但是,如果我有多个治疗前后,关于d_t会发生什么dtdtd_t?我仍然使用假人来指示一年是在治疗之前还是之后? 还是在不指定每年是否属于治疗前或治疗后期间的情况下添加年份假人?像这样: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} 还是可以同时包含两者(即ÿË 一个[R dü 中号米ÿ+ λ dŤyeardummy+λdtyeardummy +\lambda d_t)? C。ÿ我小号Ť= α + γs* …

2
VAR预测方法
我正在建立一个VAR模型来预测资产价格,并想知道我的方法在统计上是否合理,我所包括的测试是否相关,以及是否需要更多测试以确保基于输入变量的可靠预测。 下面是我当前的检查Granger因果关系并预测所选VAR模型的过程。 require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference to achieve stationarity d.x1 …
19 r  forecasting  modeling  var 

2
如何根据先前事件的时间预测下一个事件何时发生?
我是一名高中生,并且正在从事计算机编程项目,但是我在高中统计课程之外的统计和数据建模方面没有很多经验,所以我有点困惑。 基本上,我有一个相当大的列表(假设它足够大,可以满足任何统计测试或度量的假设),而这个时间决定了某人决定打印文档。基于此列表,我想构建某种统计模型,该模型将在给定所有先前事件时间的情况下预测下一次打印作业的最可能时间。 我已经读过这篇文章,但是对于我在项目中的想法,回答并不能完全解决问题。我进行了一些额外的研究,发现“ 隐马尔可夫模型”可能可以使我准确地做到这一点,但是我无法找到有关如何仅使用时间列表来生成“隐马尔可夫模型”的链接。我还发现,在列表上使用卡尔曼过滤器可能有用,但从根本上讲,我想从实际使用过它们的人那里获得一些有关它的更多信息,然后才尝试尝试并希望它能起作用。 谢谢一群!

1
社区对第四象限的看法是什么?
黑天鹅名人(或臭名昭著)的纳西姆·塔莱布(Nassim Taleb )详细阐述了这一概念,并开发了他所谓的“统计极限图”。他的基本论点是,存在一种决策问题,任何统计模型的使用都是有害的。这些都是决策问题,决策错误的后果可能过高,而且基本的PDF很难理解。 一个例子是做空股票期权。这种操作可能导致无限(至少在理论上)损失;而且这种损失的可能性尚不清楚。实际上,很多人都为概率建模,但塔勒布(Taleb)认为,金融市场还不够成熟,不足以让人们对任何模型都充满信心。仅仅因为您见过的每只天鹅都是白色,并不意味着黑天鹅是不可能甚至不可能的。 这就是问题所在:统计界是否就塔莱布的论点达成共识? 也许这应该是社区Wiki。我不知道。

4
我可以简单地删除两个高度线性相关的预测变量之一吗?
使用Pearson的相关系数,我有几个高度相关的变量(模型中2对变量的和)。ρ = 0.978ρ=0.978\rho = 0.978ρ = 0.989ρ=0.989\rho = 0.989 的原因的一些变量是高度相关的,因为是一个变量的使用的计算为另一个变量。 例: B = V/ 3000B=V/3000B = V / 3000和 Ë= V* DE=V∗DE = V * D 乙BB和具有ËEEρ = 0.989ρ=0.989\rho = 0.989 我有可能只是“扔掉”其中一个变量吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.