统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


3
给定一个观察值的方差的置信区间
这是“第七届柯尔莫哥洛夫概率论奥林匹克竞赛”中的一个问题: 给定一个来自分布的观测值XXX,且两个参数均未知,请给出的置信区间,置信度至少为99%。Normal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 在我看来,这应该是不可能的。我有解决方案,但尚未阅读。有什么想法吗? 我将在几天后发布解决方案。 [后续编辑:官方解决方案发布在下面。Cardinal的解决方案更长,但提供了更好的置信区间。也感谢Max和Glen_b的投入。]


4
Ziliak(2011)反对使用p值,并提到了一些替代方案。这些是什么?
在最近的一篇文章中讨论了依赖p值进行统计推断的缺点,称为“ Matrixx诉Siracusano和Student诉Fisher的审判统计意义”(DOI:10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak反对使用p值。在最后几段中,他说: 数据是我们已经知道并且肯定的一件事。我们实际上想知道的是完全不同的东西:给定我们拥有的数据,假设成立的可能性为真(或至少在实践中有用)。我们想知道两种药物不同的可能性,以及在给定证据的情况下相差多少。显着性检验(基于转置条件的谬误,即Fisher陷入的陷阱)不会,也无法告诉我们这种可能性。幂函数,预期损失函数以及许多其他的决策理论方法和贝叶斯方法都可以从Student和Jeffreys继承而来,这些方法现已广泛可用并且可以免费在线使用。 幂函数,期望损失函数和“其他决策理论和贝叶斯方法”是什么?这些方法是否被广泛使用?它们在R中可用吗?这些新建议方法如何实施?例如,我将如何使用这些方法在数据集中检验我的假设,否则我将使用常规的两样本t检验和p值?



4
解决模型不确定性
我想知道在CrossValidated社区中的贝叶斯主义者如何看待模型不确定性问题,以及他们希望如何处理它?我将尝试分两个部分提出我的问题: (根据您的经验/观点)处理模型不确定性有多重要?我在机器学习社区中没有找到任何有关此问题的论文,所以我只是想知道为什么。 处理模型不确定性(奖励点,如果提供参考)的常用方法是什么?我听说过贝叶斯模型平均,但是我不熟悉这种方法的特定技术/局限性。还有哪些?为什么您偏爱另一个?

2
我什么时候不应该对MLE使用R的nlm函数?
我遇到了一些指南,建议我使用R的nlm进行最大似然估计。但是,它们中的任何一个(包括R的文档)都没有给出何时使用或不使用该功能的大量理论指导。 据我所知,nlm只是沿牛顿方法进行梯度下降。是否有合理的时间使用这种方法的原则?有哪些替代方法?另外,对数组的大小是否有限制,等等。可以传递给nlm吗?

1
基于轮廓似然性构造置信区间
在我的基础统计学课程中,我学习了如何基于“大”样本量的渐近正态性构造95%的置信区间,例如总体均值。除了重采样方法(例如引导程序)以外,还有另一种基于“轮廓可能性”的方法。有人可以阐明这种方法吗?μμ\mu 在什么情况下,基于渐近正态性和轮廓似然性构造的95%CI是可比的?我找不到关于此主题的任何参考,请提供任何建议的参考吗?为什么没有更广泛地使用它?

2
PCA在多重共线性下不稳定吗?
我知道在回归情况下,如果您有一组高度相关的变量,由于估计系数的不稳定性(方差趋于零,而行列式趋于零),这通常是“不好的”。 我的问题是,这种“弊端”在PCA情况下是否仍然存在。当协方差矩阵变得奇异时,任何特定PC的系数/载荷/权重/特征向量会变得不稳定/任意/不唯一吗?对于仅保留第一个主要成分而所有其他成分都被视为“噪音”或“其他”或“不重要”的情况,我尤其感兴趣。 我不这么认为,因为您将剩下一些具有零或接近零方差的主要成分。 容易看到,在具有2个变量的简单极端情况下,情况并非如此-假设它们是完全相关的。然后,第一个PC将是精确的线性关系,第二个PC将与第一个PC垂直,所有观测值的所有PC值都等于零(即零方差)。想知道它是否更一般。


2
通用线性模型与广义线性模型(具有身份链接功能?)
这是我的第一篇文章,所以如果我不遵循某些标准,请对我放轻松!我搜索了我的问题,但没有任何反应。 我的问题主要涉及通用线性建模(GLM)与广义线性建模(GZLM)之间的实际差异。在我的情况下,与GZLM相比,ANCOVA中将有一些连续变量作为协变量,而有一些因子。我想研究每个变量的主要影响,以及我将在模型中概述的三种交互作用。我可以看到这个假设正在ANCOVA或使用GZLM进行测试。在某种程度上,我了解运行像ANCOVA这样的常规线性模型的数学过程和推理,并且我有点理解GZLM允许使用链接函数来连接线性模型和因变量(好吧,我撒谎,也许我不知道)非常了解数学)。我真正的不 无法理解在GZLM中使用的概率分布是正常的(即,身份链接功能?)时,进行一种分析而不是进行另一种分析的实际差异或原因。当我一个接一个地运行时,我得到了截然不同的结果。我可以跑吗?我的数据有些不正常,但在ANCOVA和GZLM中都可以使用。在两种情况下都支持我的假设,但在GZLM中,p值“更好”。 我的想法是,ANCOVA是一个线性模型,具有使用身份链接函数的正态分布因变量,这正是我可以在GZLM中输入的内容,但是它们仍然有所不同。 如果可以,请为我阐明这些问题! 根据第一个答案,我还有另一个问题: 如果除使用的显着性检验(即F检验与Wald Chi Square)相同以外,是否最合适?ANCOVA是“首选方法”,但我不确定为什么F检验会更可取。有人可以帮我阐明这个问题吗?谢谢!

3
首先尝试的五个分类器
除了明显的分类器特征,例如 计算成本, 功能/标签的预期数据类型和 适用于某些大小和尺寸的数据集, 首先对一个尚不十分了解的新数据集(例如语义和各个特征的相关性)首先尝试的前五个(或10、20?)分类器是什么?通常,我尝试使用朴素贝叶斯,最近邻居,决策树和SVM-尽管我没有充分的理由选择此选项,但我了解它们并主要了解它们的工作原理。 我猜应该选择涵盖最重要的通用分类方法的分类器。根据该标准或其他任何原因,您会推荐哪种选择? 更新:针对该问题的另一种表述可能是:“存在哪些通用的分类方法,哪些特定方法涵盖了最重要/最受欢迎/有希望的方法?”

2
R中的似然比检验
假设我要对几个自变量进行单变量逻辑回归,如下所示: mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) 我进行了模型比较(似然比检验),以查看该命令是否比空模型更好 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 然后我建立了一个包含所有变量的模型 mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) 为了查看变量在多变量模型中是否具有统计意义,我使用了以下lrtest命令epicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically significant after …
25 r  logistic  diagnostic 

4
统计合作
作为生物学家,我有时从事的许多研究项目都涉及与统计学家的合作,无论是简单的建议还是实施和测试我的数据模型。我的统计同事承认,他们进行了大量合作,因此,任期审查过程仅考虑第一作者或最后作者的论文。 是什么让我(或任何其他科学家)成为更好的合作者?是什么让您(作为统计学家)可以更轻松地与我合作?具体来说,您希望所有科学家合作者都已经了解了一个统计学概念?
25 academia 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.