统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


7
留一法与K折交叉验证的偏差和方差
在模型方差和偏差方面,不同的交叉验证方法如何比较? 我的问题部分源于此线程:折交叉验证中的最佳折叠数:留一法CV始终是最佳选择吗?ķKK ķ。那里的答案表明,通过留一法交叉验证学习的模型具有比通过常规倍交叉验证法学习的模型更高的方差,这使得留一法CV成为较差的选择。ķKK 但是,我的直觉告诉我,在留一式CV中,模型之间的方差应该比折CV 中的方差小,因为我们仅跨折移动一个数据点,因此折之间的训练集实质上重叠。ķKK 或朝另一个方向发展,如果折CV 中的较低,则训练集的折折将完全不同,并且所得的模型更有可能不同(因此方差更高)。 ķķKKķKK 如果上述论点是正确的,为什么用留一法CV学习的模型会有更高的方差?


14
为什么没有可靠(和可靠)的统计数据代替经典技术?
当使用数据解决业务问题时,通常至少有一个关键的假设支撑经典统计数据是无效的。在大多数情况下,没有人会去检查那些假设,所以您永远不会真正知道。 例如,到目前为止,有如此多的常见Web指标是“长尾的”(相对于正态分布),有据可查,因此我们将其视为理所当然。另一个例子是在线社区,即使在拥有成千上万成员的社区中,也有据可查的是,到目前为止,在许多此类社区中,对贡献/参与的最大贡献是由微不足道的“超级贡献者”群体造成的。(例如,几个月前,SO API在Beta中可用后,StackOverflow成员发布了他通过API收集的数据的简要分析;他的结论- 不到百分之一的SO成员占了大部分SO上的活动 (大概是提问,然后回答),剩下的1-2%占了绝大多数,绝大多数成员无所事事。 这类分布(通常是规则而不是例外)通常最好用幂律密度函数建模。对于这些类型的分布,甚至中心极限定理也难以应用。 因此,鉴于分析师对此感兴趣的人口众多,并且鉴于经典模型在这些数据上的表现明显较差,并且鉴于健壮且可靠的方法已经存在了一段时间(我相信至少有20年),为什么他们不经常使用吗?(我也想知道为什么我不经常使用它们,但这对CrossValidated来说并不是真正的问题。) 是的,我知道有些教科书章节专门介绍了可靠的统计信息,并且我知道有(一些)R程序包(robustbase是我熟悉和使用的R程序包),等等。 然而,鉴于这些技术的明显优势,它们通常显然是工作的更好工具- 为什么它们使用得不多?我们难道不希望看到与经典类似物相比,更可靠(更可靠)的统计数据使用得更多(也许甚至是推定)吗? 我听到的唯一实质性(即技术性)解释是,健壮的技术(同样适用于抗性方法)缺乏经典技术的功能/敏感性。我不知道在某些情况下是否确实如此,但是我确实在很多情况下都不是正确的。 最后的优先权:是的,我知道这个问题没有一个可以证明的正确答案;本网站上的问题很少。而且,这个问题是真正的询问。这不是提出观点的借口-我在这里没有观点,只是我希望为其提供一些有见地答案的问题。

8
最合适的线看起来不太合适。为什么?
看看这个Excel图: “常识”的最佳拟合线将是一条垂直于点中心的几乎垂直的线(用红色手工编辑)。但是,由Excel确定的线性趋势线是所示的对角黑色线。 为什么Excel产生了(在人眼中)看来是错误的东西? 如何生成看起来更直观的最佳拟合线(即类似红线的东西)? 更新1.此处提供带有数据和图形的Excel电子表格: 示例数据,Pastebin中的CSV。type1和type2回归技术可以用作excel函数吗? 更新2。数据表示滑翔伞在热中攀爬,随风漂移。最终目标是研究风的强度和方向如何随高度变化。我是工程师,而不是数学家或统计学家,因此这些回复中的信息为我提供了更多的研究领域。

2
tanh激活函数与S型激活函数
tanh激活功能为: Ť 一个Ñ ħ (X ) = 2 ·&σ(2 x ) − 1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 其中,S形函数,被定义为:。σ (x )= e xσ(x )σ(x)\sigma(x) σ(x )= eX1 + eXσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} 问题: 使用这两个激活函数(tanh与sigma)之间真的有关系吗? 在哪种情况下哪个功能更好?

5
“封闭式解决方案”是什么意思?
我经常碰到“封闭式解决方案”一词。封闭式解决方案是什么意思?如何确定一个给定问题的封闭式解决方案?在网上搜索时,我发现了一些信息,但是在开发统计或概率模型/解决方案的过程中却找不到任何信息。 我对回归非常了解,因此,如果任何人都可以参考回归或模型拟合来解释这一概念,那么它将很容易使用。:)


4
零膨胀模型和跨栏模型有什么区别?
我想知道所谓的零膨胀分布(模型)和所谓的零障碍分布(模型)之间是否有明显的区别?这些术语在文献中经常出现,我怀疑它们是不相同的,但是请您简单解释一下我的区别吗?


3
进行逻辑回归时,不平衡样本是否重要?
好吧,考虑到20:1的经验法则,我认为我有一个足够不错的样本:一个相当大的样本(N = 374),总共有7个候选预测变量。 我的问题如下:无论我使用什么预测变量集,分类都永远不会比100%的特异性和0%的灵敏度更好。无论如何,如果给定候选预测变量集(我不能偏离),这实际上可能是最好的结果。 但是,我忍不住想做得更好,因此我注意到因变量的类别之间的平衡非常不平衡,几乎是4:1。更加平衡的子样本可以改善分类吗?

10
直观地理解“差异”
解释某人方差概念的最干净,最简单的方法是什么?直觉上是什么意思?如果要向他们的孩子解释这一点,那该怎么办? 这是我很难阐明的概念,尤其是在将差异与风险相关时。我在数学上理解它,也可以用这种方式解释它。但是,在解释现实世界现象时,可以这么说,您如何理解方差及其在“现实世界”中的适用性。 假设我们正在使用随机数来模拟对股票的投资(滚动骰子或使用Excel表格都没关系)。通过将随机变量的每个实例与回报中的“某些变化”相关联,我们可以获得“投资回报”。例如。: 滚动1意味着0.8%的变化$ 1的投入,5 1.1%的变化$ 1等。 现在,如果此模拟运行大约50次(或20或100),我们将获得一些价值和最终投资价值。那么,“方差”实际上告诉我们是否要根据上述数据集进行计算?一个“看到”的是什么-如果方差变成1.7654或0.88765或5.2342,这甚至意味着什么?我对这项投资有何看法?我可以得出一些结论-用外行的话来说。 请也随意增加标准偏差的问题!尽管我觉得理解起来“更容易”,但是将有助于使它也“直观地”变得清晰起来,这一点将不胜感激!

6
是否有任何例子表明贝叶斯可信区间明显不如常识性置信区间
最近关于置信度和可信区间之间的差异的问题使我开始重新阅读Edwin Jaynes关于该主题的文章: Jaynes,ET,1976年。《置信区间与贝叶斯区间》,《概率论,统计推论和科学的统计理论基础》,WL Harper和CA Hooker(编),D。Reidel,Dordrecht,第1页。175; (pdf) Jaynes在摘要中写道: ...我们展示了贝叶斯和正统解对涉及置信区间的六个常见统计问题(包括基于相同推理的显着性检验)。在每种情况下,我们都发现情况恰好相反,即贝叶斯方法更易于应用,并且产生相同或更好的结果。实际上,仅当正统结果与贝叶斯结果紧密(或完全一致)时,其结果才令人满意。尚未产生相反的例子。 (强调我的) 该论文于1976年发表,所以也许情况有所发展。我的问题是,是否有一些例子表明,频繁主义者的置信区间明显优于贝叶斯可信区间(根据Jaynes的隐含挑战)? 基于错误的先验假设的示例是不可接受的,因为它们没有说明不同方法的内部一致性。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.