统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
何时使用Fisher和Neyman-Pearson框架?
最近,我一直在阅读很多有关Fisher假设检验方法和Neyman-Pearson思想流派之间的差异的信息。 我的问题是,暂时忽略哲学上的反对意见。什么时候应该使用Fisher的统计建模方法,什么时候应该使用显着性水平等的Neyman-Pearson方法?是否有一种实用的方法来决定在任何给定的实际问题中应支持哪种观点?

4
什么是“非信息先验”?我们可以拥有一个完全没有信息的人吗?
受此问题的评论启发: 我们认为先验中的“非信息性”是什么-所谓的先验信息中仍包含哪些信息? 我通常会在分析中看到先验,在先验分析中,它是尝试从贝叶斯分析中借鉴一些好的部分(可能是一些更容易解释的方式来“做最热的事情”),所以指定的先验是横跨效果测度的界限,集中于0但即使断言均匀分布一个形状与现有-它恰好是平坦的。 使用前是否有更好的信息?
73 bayesian  prior 


14
什么时候(如果有的话)频频论的方法比贝叶斯方法更好?
背景:我没有接受贝叶斯统计方面的正式培训(尽管我对学习更多内容非常感兴趣),但我知道-我想知道的要点是为什么许多人觉得它们似乎比频率统计更可取。甚至我所教授的入门统计学(社会科学)课程中的大学生都发现贝叶斯方法很吸引人-“为什么我们对计算数据的概率感兴趣(给定null呢?)为什么我们不能仅仅量化是零假设还是替代假设?我也读过类似这样的线索,它们也证明了贝叶斯统计的经验优势,但后来我碰到了布拉斯科(Blasco,2001;重点强调): 如果动物育种者对与归纳相关的哲学问题不感兴趣,但对解决问题的工具感兴趣,那么贝叶斯推理派和惯常论推论派都已建立,并且没有必要证明为什么选择另一派或另一派来论证。除了一些复杂的案例外,它们现在都没有操作上的困难... 选择一所学校或另一所学校应与一所学校是否存在另一所学校没有提供的解决方案,解决问题的容易程度有关,以及科学家对特定表达方式的感觉如何。 问题:布拉斯科的名言似乎暗示,有时频频方法实际上比贝叶斯方法更可取。因此,我很好奇:什么时候比贝叶斯方法更偏爱常去方法?我对从概念上(即什么时候知道以原假设为条件的数据的概率特别有用?)和凭经验(即在什么条件下Frequentist方法优于贝叶斯方法?)都可以解决这个问题的答案感兴趣。 如果答案尽可能地易于传达也将是可取的-最好将一些答案反馈给我的班级以与我的学生分享(尽管我知道需要一定程度的技术性)。 最后,尽管经常使用频率统计,但实际上我对贝叶斯全盘获胜的可能性持开放态度。

7
最小回归的最小样本量的经验法则
在社会科学领域的一项研究计划中,有人问我以下问题: 在确定多元回归的最小样本量时,我总是走100 + m(其中m是预测变量的数量)。这样合适吗 我经常遇到很多类似的问题,通常有不同的经验法则。我也在各种教科书中读了很多这样的经验法则。有时我想知道规则在引用方面的普及是否基于该标准的设定低。但是,我也意识到良好启发式方法在简化决策过程中的价值。 问题: 在设计研究的应用研究人员的背景下,简单的经验法则对于最小样本量有什么用? 您是否会建议使用另一条经验法则来确定多元回归的最小样本量? 或者,您将建议采用哪些替代策略来确定多元回归的最小样本量?特别是,如果将值分配给非统计人员可以轻松应用任何策略的程度,那将是很好的。


4
泊松与指数分布之间的关系
泊松分布的等待时间是带有参数lambda的指数分布。但是我不明白。例如,泊松(Poisson)对每单位时间的到达次数进行建模。这与指数分布有何关系?假设以时间为单位的k到达概率为P(k)(由泊松建模),k + 1的概率为P(k + 1),那么指数分布如何建模它们之间的等待时间?



2
为什么将岭回归称为“岭”,为什么需要它,当达到无穷大时会发生什么?
岭回归系数估计是使β^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 我的问题是: 如果,那么我们看到上面的表达式简化为通常的RSS。如果怎么办?我不理解教科书中有关系数行为的解释。λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty 为了帮助理解特定术语背后的概念,为什么将该术语称为RIDGE回归?(为什么要使用ridge?)通常/常见回归可能有什么问题,需要引入一个称为ridge回归的新概念? 您的见解会很棒。

8
在机器学习者中很难找到技能?
似乎数据挖掘和机器学习变得如此流行,以至于现在几乎每个CS学生都知道分类器,聚类,统计NLP等。因此,如今寻找数据挖掘者似乎并不困难。 我的问题是:数据挖掘者可以学习哪些技能,从而使其与众不同?要使他成为一个不太容易找到像他这样的人。

2
求解封闭形式vs梯度下降中的回归参数
在Andrew Ng的机器学习课程中,他介绍了线性回归和逻辑回归,并展示了如何使用梯度下降和牛顿方法拟合模型参数。 我知道梯度下降在机器学习的某些应用(例如,反向传播)中可能很有用,但在更一般的情况下,有任何理由为什么您不会以封闭形式求解参数-即,采用成本函数和通过微积分求解? 如果可用,在封闭形式的解决方案上使用像梯度下降这样的迭代算法通常有什么优势?

2
删除R中的重复行数据框
如何从此示例数据框中删除重复的行? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 我想根据两列删除重复项: A 1 A 2 B 4 B 1 C 2 顺序并不重要。
71 r 

15
使用R的可重复研究的完整实质性示例
问题:是否有任何可以免费在线使用R进行可重复研究的好例子? 理想示例: 具体而言,理想示例将提供: 原始数据(最好是解释数据的元数据), 所有R代码,包括数据导入,处理,分析和输出生成, 调整或将最终输出链接到最终文档的其他方法, 所有格式都易于在读者的计算机上下载和编译。 理想情况下,示例应是期刊文章或论文,其中重点是实际应用的主题,而不是统计教学示例。 感兴趣的原因: 我对期刊文章和论文中的应用主题特别感兴趣,因为在这种情况下,还会出现其他一些问题: 出现与数据清理和处理有关的问题, 出现与元数据管理有关的问题, 期刊和论文通常对表格和图表的外观和格式有风格指导的期望, 许多期刊和论文通常都有广泛的分析,这些分析提出了有关工作流程(即,如何进行序列分析)和处理时间(例如,缓存分析等)的问题。 看到完整的示例,可以为可重复研究的研究人员提供良好的指导材料。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.