统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


4
如何报告微小的
对于在某些测试中R,存在对一个下限p值的计算2.22 ⋅ 10− 162.22⋅10-162.22 \cdot 10^{-16}。我不确定为什么是这个数字,是否有充分的理由,或者它是任意的。许多其他统计信息包都可以使用0.0001,因此精度更高。但是我没有看到太多的论文报告或。p &lt; 2.22 ⋅ 10− 16p&lt;2.22⋅10-16p < 2.22\cdot 10^{-16}p = 2.22 ⋅ 10− 16p=2.22⋅10-16p = 2.22\cdot 10^{-16} 报告此计算值是常见/最佳做法,还是报告其他内容(例如p &lt; 0.000000000000001)更典型?


5
杰弗里斯先验为何有用?
我了解在重新参数化下,Jeffreys先验是不变的。但是,我不明白的是为什么需要此属性。 您为什么不希望先验在变量变化下发生变化?
61 bayesian  prior 


10
“科学家奋起反抗统计意义”是什么意思?(自然评论)
《自然科学家评论》的标题与统计意义背道而驰,其开头为: 瓦伦丁·阿姆海因(Valentin Amrhein),桑德·格陵兰(Sander Greenland),布莱克·麦克沙恩(Blake McShane)和800多个签署国呼吁结束大肆宣传的主张,并取消可能产生的关键影响。 稍后包含如下语句: 再一次,我们不主张禁止使用P值,置信区间或其他统计指标,而只是禁止对它们进行分类。这包括在统计上是否有意义的二分法,以及基于其他统计量(例如贝叶斯因子)的分类。 我想我可以理解,下面的图像并不表示这两项研究不同意,因为其中一项“排除”了无效,而另一项则没有。但是这篇文章似乎比我理解的要深入得多。 到最后,似乎有四个要点。对于那些阅读统计数据而不是编写统计数据的人来说,是否可以用更简单的术语来概括这些内容? 在谈论兼容性间隔时,请记住四件事。 首先,仅在给出假设的前提下,因为间隔给出的值与数据最兼容,这并不意味着其外的值是不兼容的。他们只是不太兼容... 其次,在给定假设的情况下,并非内部的所有值都与数据同等兼容... 第三,就像它产生的0.05阈值一样,用于计算间隔的默认95%本身就是一个任意约定... 最后,也是最重要的一点,要谦虚:兼容性评估取决于用于计算间隔的统计假设的正确性...

2
似然比vs贝叶斯因子
关于使用似然比来表示针对/针对给定现象的客观证据,我颇为布道。但是,我最近了解到,在贝叶斯方法的上下文中,贝叶斯因子起着类似的作用(即主观先验与客观贝叶斯因子相结合,以产生客观更新的主观信念状态)。我现在试图理解似然比和贝叶斯因子之间的计算和哲学差异。 在计算级别上,我了解到,虽然似然比通常是使用代表每个模型各自参数化的最大似然性(通过交叉验证估计或使用AIC根据模型复杂度进行惩罚的可能性)来表示的,但贝叶斯因子显然以某种方式使用了代表每个模型在其整个参数空间上集成的可能性的可能性(即不仅在MLE处)。通常如何实际实现这种集成?是否真的只是尝试从参数空间计算成千上万个随机样本中的每一个的似然性,还是有分析方法来整合整个参数空间中的似然性?此外,在计算贝叶斯因子时, 另外,似然比和贝叶斯因子之间的哲学差异是什么(nb我并不是在询问似然比和贝叶斯方法之间的哲学差异,而是贝叶斯因子专门作为客观证据的代表)。与似然比相比,如何表征贝叶斯因子的含义?

2
为什么只有三个分区?(培训,验证,测试)
当您尝试将模型适合大型数据集时,通常的建议是将数据分为三个部分:训练,验证和测试数据集。 这是因为模型通常具有三个“级别”的参数:第一个“参数”是模型类(例如SVM,神经网络,随机森林),第二个参数集是“正则化”参数或“超参数”(例如套索罚分系数,核的选择,神经网络结构)和第三组通常被认为是“参数”(例如协变量的系数)。 给定一个模型类和一组超参数,就可以通过选择使训练集上的误差最小的参数来选择参数。给定一个模型类,可以通过最小化验证集上的误差来调整超参数。一个人根据测试集的性能选择模型类别。 但是为什么不增加分区呢?通常,一个人可以将超参数分为两组,并使用“验证1”适合第一个,使用“验证2”适合第二个。或者甚至可以将训练数据/验证数据分割的大小视为要调整的超参数。 在某些应用程序中这已经是普遍的做法吗?关于数据的最佳分区,是否有任何理论上的工作?


5
收缩方法能解决什么问题?
假期的来临使我有机会借助“统计学习的要素”在火炉旁next 缩。从计量经济学的角度来看,我在掌握收缩方法(如岭回归,套索和最小角度回归(LAR))的使用方面遇到了麻烦。通常,我对参数估计值本身以及实现无偏见或至少一致感兴趣。收缩方法不能做到这一点。 在我看来,当统计人员担心回归函数对预测变量过于敏感时,会使用这些方法,因为它认为预测变量比实际更为重要(通过系数的大小来衡量)。换句话说,过度拟合。 但是,OLS通常会提供无偏且一致的估计。(脚注)我一直认为过拟合的问题不是给出太大的估计,而是给出过小的置信区间,因为未考虑选择过程( ESL提到了后者。 无偏/一致的系数估计会导致对结果的无偏/一致的预测。收缩方法使预测比OLS更接近平均结果,似乎在桌上留下了信息。 重申一下,我没有看到收缩方法试图解决什么问题。我想念什么吗? 脚注:我们需要完整的列级条件来识别系数。误差的外生性/零条件均值假设和线性条件期望假设决定了我们可以对系数进行的解释,但是即使这些假设不成立,我们也可以得到无偏或一致的估计值。

7
具有多个因变量的回归?
是否可能有一个(多个)具有两个或多个因变量的回归方程?当然,您可以运行两个单独的回归方程,每个DV对应一个回归方程,但这似乎无法捕获两个DV之间的任何关系?
61 regression 


6
使用R进行套索预测的标准误差
我正在尝试使用LASSO模型进行预测,并且需要估算标准误差。肯定有人已经编写了一个软件包来执行此操作。但是据我所知,使用LASSO进行预测的CRAN程序包都不会返回这些预测的标准错误。 所以我的问题是:是否有可用的软件包或一些R代码来计算LASSO预测的标准误差?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.