Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。


3
如何知道您的机器学习问题是没有希望的?
想象一下标准的机器学习场景: 您面临着庞大的多元数据集,并且您对它的理解很模糊。您需要做的是根据所拥有的东西对一些变量进行预测。像往常一样,您清理数据,查看描述性统计信息,运行某些模型,对其进行交叉验证等,但是经过几次尝试,来回尝试多个模型后,似乎没有任何效果,而且您​​的结果很可悲。您可能会花费数小时,数天或数周的时间解决此类问题... 问题是:何时停止?您怎么知道您的数据实际上是绝望的,所有花哨的模型对预测所有案例或其他琐碎解决方案的平均结果都不会带来什么好处? 当然,这是一个可预测性问题,但是据我所知,在尝试对多变量数据进行评估之前很难评估它。还是我错了? 免责声明:这个问题是受这个问题启发的。 我什么时候停止寻找模特儿了?并没有引起太多关注。对此问题有详细的答案以供参考是很好的。

24
“现代”统计的经验法则
我喜欢G van Belle撰写的有关统计经验法则的书,在较小程度上,我喜欢Phillip I Good和James W. Hardin 撰写的统计学中的常见错误(以及如何避免错误)。当解释实验和观察研究的结果时,它们解决了常见的陷阱,并为统计推断或探索性数据分析提供了实用建议。但是我感到有些缺乏“现代”指南,特别是随着在各个领域中对计算和鲁棒统计的使用不断增长,或者在临床生物统计学或遗传流行病学等领域引入了机器学习社区的技术。 除了可以在其他地方解决的计算技巧或数据可视化中的常见陷阱之外,我想问一下:对于高效的数据分析,您建议的最高经验法则是什么?(请为每个答案制定一条规则)。 我正在考虑您可以向同事,没有统计学建模背景的研究人员或中高级课程的学生提供的指导原则。这可能与数据分析的各个阶段有关,例如采样策略,特征选择或模型构建,模型比较,后估计等。


7
分解一个连续的预测变量有什么好处?
我想知道在模型中使用它之前,取一个连续的预测变量并将其分解(例如分解为五分位数)的价值是什么。 在我看来,通过对变量进行分类,我们会丢失信息。 这样是否可以为非线性效应建模? 如果我们保持变量连续并且不是真正的线性关系,我们是否需要提出某种曲线以最适合数据?


6
预测江南风格的Youtube视图数量的模型
PSY的音乐录影带“江南风格”很受欢迎,在短短两个多月的时间里,它已拥有约5.4亿观众。我上周在晚餐时从我的青春期孩子那里学到了这一点,不久的讨论就朝着是否可以预测10到12天内会有多少观众以及这首歌何时播放的方向发展。将使8亿或10亿观众通过。 这是自发布以来观众人数的照片: 这是第一名“ Justin Biever-Baby”和第二名“ Eminem-Love you lie”的音乐录像带的观看者图片,这两段视频的播放时间已经很长了 我第一次尝试建立模型的原因是应该是S形曲线,但这似乎不适合No1和No2歌曲,也不适合音乐视频的观看次数没有限制只能有一个缓慢的增长。 所以我的问题是:我应该使用哪种模型来预测音乐视频的观众数量?
73 modeling  web 

5
使用k折交叉验证进行时序模型选择
问题: 我想确定一点,使用带有时间序列的k折叠交叉验证是否简单明了,还是在使用它之前需要特别注意? 背景: 我正在建模一个6年的时间序列(使用半马尔可夫链),每5分钟有一个数据样本。为了比较多个模型,我使用了6倍交叉验证,即通过分离6年中的数据,所以我的训练集(用于计算参数)的长度为5年,而测试集的长度为1年。我没有考虑时间顺序,因此我的不同设置是: fold 1:训练[1 2 3 4 5],测试[6] 第二折:训练[1 2 3 4 6],测试[5] 第三折:训练[1 2 3 5 6],测试[4] 第四步:训练[1 2 4 5 6],测试[3] 第五步:训练[1 3 4 5 6],测试[2] 第六步:训练[2 3 4 5 6],测试[1]。 我提出的假设是,每年彼此独立。我该如何验证?有没有参考资料显示k倍交叉验证与时间序列的适用性。

7
在回归模型中,所有交互项都需要它们各自的项吗?
我实际上正在审阅作者将5-6 logit回归模型与AIC进行比较的手稿。但是,某些模型具有交互项,但不包括各个协变量项。这样做有意义吗? 例如(不特定于logit模型): M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 & X2) 我一直给人的印象是,如果您有交互项X1 * X2,则还需要X1 + X2。因此,模型1和2会很好,但模型3-5会有问题(即使AIC较低)。这个对吗?它是准则还是更多准则?有没有人有很好的参考资料来解释其背后的原因?我只是想确保我不会在评价中传达任何重要信息。 谢谢您的任何想法,丹

11
当我的模型错误时,为什么我应该是贝叶斯?
编辑:我添加了一个简单的示例:的均值的推断。我还稍微澄清了为什么不匹配置信区间的可信区间是不好的。XiXiX_i 我是一位虔诚的贝叶斯主义者,正处于某种信仰危机之中。 我的问题如下。假设我要分析一些IID数据。我要做的是:XiXiX_i 首先,提出一个条件模型: p(X|θ)p(X|θ) p(X|\theta) 然后,选择的先验值: θθ\thetap(θ)p(θ) p(\theta) 最后,应用贝叶斯法则,计算后验:(或者应该近似计算,如果它不能计算),并回答我对所有疑问p(θ|X1…Xn)p(θ|X1…Xn)p(\theta | X_1 \dots X_n )θθ\theta 这是一个明智的方法:如果数据的真实模型确实在我的条件的“内部”(它对应于某个值),那么我可以呼吁统计决策理论说我的方法是可以接受的(请参阅Robert's有关详细信息,请参见“贝叶斯选择”;在所有相关章节中,“所有统计信息”也有明确说明。XiXiX_iθ0θ0\theta_0 但是,众所周知,假设我的模型正确无比:为什么自然应该整洁地落入我所考虑的模型的框内?假设对于所有值,数据的实模型与不同,这要现实得多。通常将其称为“错误指定”模型。p (X | θ )θptrue(X)ptrue(X)p_{true}(X)p(X|θ)p(X|θ)p(X|\theta)θθ\theta 我的问题是,在这种更为现实的,错误指定的情况下,与贝叶斯计算(即计算后验分布)相比,对于简单地计算最大似然估计器(MLE),我没有任何好的论据: θ^ML=argmaxθ[p(X1…Xn|θ)]θ^ML=arg⁡maxθ[p(X1…Xn|θ)] \hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ] 实际上,根据Kleijn,vd Vaart(2012)的说法,在错误指定的情况下,后验分布为: 收敛为到以为中心的狄拉克分布θ中号大号n→∞n→∞n\rightarrow \infty θ^MLθ^ML\hat \theta_{ML} 没有正确的方差(除非两个值恰好相同),以确保后验的可信区间匹配置信区间。(请注意,虽然置信区间显然是贝叶斯人不太在意的事情,但从质量上讲,这意味着后验分布本质上是错误的,因为这意味着其可信区间没有正确的覆盖范围)θθ\theta 因此,我们为没有额外的属性而付出了计算上的额外费用(一般来说,贝叶斯推断要比MLE昂贵) 因此,最后,我的问题是:在模型指定不正确的情况下,是否有关于理论上或经验上的论据,用于对简单的MLE替代方法使用贝叶斯推理? (由于我知道我的问题通常不清楚,如果您不了解某些内容,请告诉我:我会尝试重新表述) 编辑:让我们考虑一个简单的示例:在高斯模型下推断的平均值(已知方差可以进一步简化)。我们考虑高斯先验:我们将表示为先验均值,表示的逆方差。令为的经验均值。最后,请注意:。 σ μ 0 β 0 …

6
2016年确实需要进行预测模型的变量选择吗?
几年前已经在简历上提出了这个问题,鉴于1)更好的计算技术(例如并行计算,HPC等)和2)更新的技术(例如[3]),似乎值得重新提出。 首先,一些背景。让我们假设目标不是假设检验,不是效果估计,而是对未见检验集的预测。因此,没有赋予任何可解释的利益以重量。其次,假设您不能排除任何预测因素在主题考虑方面的相关性,即 它们看起来单独或与其他预测变量组合似乎都合理。第三,您要面对数以百万计的预测变量。第四,假设您可以无限制地访问AWS,因此计算能力不受限制。 变量选择的常见原因是:1)效率;更快地适合较小的模型,便宜地收集较少的预测变量,2)解释;知道“重要”变量可以深入了解基本过程[1]。 众所周知,许多变量选择方法无效,而且常常是完全危险的(例如,逐步回归)[2]。 其次,如果选择的模型不错,那么根本不需要缩减预测变量的列表。该模型应该为您完成。套索就是一个很好的例子,它为所有不相关的变量分配了零系数。 我知道有些人主张使用“大象”模型,即。将所有可能的预测变量投入拟合并运行[2]。 如果目标是预测准确性,是否有任何根本原因进行变量选择? [1] Reunanen,J.(2003)。在变量选择方法之间进行比较时过度拟合。机器学习研究杂志,3,1371-1382。 [2] Harrell,F.(2015)。回归建模策略:应用于线性模型,逻辑和序数回归以及生存分析。施普林格。 [3] Taylor,J.和Tibshirani,RJ(2015)。统计学习和选择性推理。美国国家科学院院刊,112(25),7629-7634。 [4] Zhou,J.,Foster,D.,Stine,R。和Ungar,L。(2005年8月)。使用Alpha投资进行流特征选择。在第十一届ACM SIGKDD国际会议上,进行数据挖掘中的知识发现(第384-393页)。ACM。

4
为什么在GAM中包含纬度和经度会引起空间自相关?
我已经制作了用于毁林的广义加性模型。为了说明空间自相关,我将经度和纬度作为平滑的交互项(即s(x,y))包括在内。 我以阅读许多论文为基础,这些论文的作者说:“要考虑空间自相关,将点的坐标作为平滑项包括在内”,但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍,以期找到答案,但是大多数书籍(例如,通用加性模型,R的简介,SN Wood)只是在不加解释的情况下触及了该主题。 如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中,以及“帐户”的真正含义,我真的很感激-将其包含在模型中是否足够简单,或者您应该将模型与s(x,y)in和没有模型?术语解释的偏差是否表示空间自相关的程度?




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.