统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC —是否可以互换使用?
在第 他的PRNN的第 34页Brian Ripley评论说:“ AIC被Akaike(1974)命名为“信息准则”,尽管似乎通常认为A代表Akaike。实际上,在介绍AIC统计信息时,Akaike(1974,p.719)解释说: "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". 将此报价视为1974年的预测,有趣的是,在短短的四年中,Akaike(1977,1978)和Schwarz(1978)提出了两种类型的BIC统计量(贝叶斯统计量)。Spiegelhalter等人。(2002)提出DIC(Deviance IC)的时间更长。尽管Akaike(1974)并没有预测CIC标准的出现,但相信从未考虑过这一点是天真的。它是由Carlos C. Rodriguez在2005年提出的。(请注意,R。Tibshirani和K. Knight的CIC(协方差通胀标准)是另一回事。) 我知道EIC(经验IC)是Monash大学的人们在2003年左右提出的。我刚刚发现了聚焦信息标准(FIC)。有些书将Hannan和Quinn IC称为HIC,请参阅例如本)。我知道应该有GIC(通用IC),而且我刚刚发现了信息投资标准(IIC)。有NIC,TIC等。 我想我可能会覆盖其余的字母,所以我不问序列AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC,...的停靠点,或字母表中的哪些字母未被使用或至少被使用过两次(例如,EIC中的E可以表示扩展的或经验的)。我的问题更简单,希望对实际更有用。我是否可以互换使用这些统计信息,而忽略它们所依据的特定假设,它们应适用的特定情况等等? 这个问题部分是由Burnham&Anderson(2001)提出的,其动机是: ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

2
折交叉验证中的最佳折叠数:留一法CV始终是最佳选择吗?
除了计算能力方面的考虑之外,是否有任何理由相信交叉验证中折叠数的增加会导致更好的模型选择/验证(即,折叠数越多越好)? 极端地讲,与折交叉验证相比,留一法交叉验证是否必然导致更好的模型?KKK 这个问题的一些背景:我正在处理一个很少有实例的问题(例如10个正值和10个负值),并且担心我的模型可能无法很好地归纳出很好的数据/如果数据太少,可能会过度拟合。

5
解释QQplot-是否有经验法则来确定非正常性?
我在这里阅读了足够的关于QQplots的主题,以了解QQplot比其他正常性测试更有用。但是,我对解释QQplots缺乏经验。我用谷歌搜索了很多;我发现了许多非正常QQ曲线图,但是没有清晰的规则来解释它们,除了看起来与已知分布和“肠感”的比较。 我想知道您是否有(或您知道)任何经验法则可以帮助您确定非正常性。 当我看到以下两个图形时,出现了这个问题: 我了解非正常性的决定取决于数据以及我要如何处理它们。但是,我的问题是:通常,观察到的偏离直线的时间何时构成足以使正态性近似变得不合理的证据? 就其价值而言,Shapiro-Wilk检验未能拒绝两种情况下的非正态性假设。



2
样条曲线是否适合数据?
我的问题:我最近遇到了一位统计学家,他告诉我样条线仅对探索数据有用,并且过度拟合,因此对预测没有用。他更喜欢使用简单的多项式进行探索...由于我是样条曲线的忠实拥护者,因此与我的直觉相违背,我有兴趣了解这些论证的有效性,以及是否存在大量的反样条曲线,维权人士在那里? 背景:创建模型时,我尝试遵循回归建模策略(1)的Frank Harrell。他认为受限三次样条是探索连续变量的有效工具。他还认为,多项式在建模某些关系(例如阈值,对数(2))方面很差。为了测试模型的线性,他建议对样条曲线进行ANOVA测试: H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 我用谷歌搜索样条曲线的过度拟合,但没有发现太多用处(除了关于不使用过多结的一般警告之外)。在这个论坛上,似乎更喜欢样条线建模,Kolassa,Harrell和gung。 我找到了一篇有关多项式的博文,这是有关预测多项式的过拟合的魔鬼。该帖子以以下评论结尾: 在某种程度上,这里提供的示例是作弊的-多项式回归是高度不稳健的。在实践中,更好的方法是使用样条线而不是多项式。 现在,这提示我检查样条的效果如何: library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- …

4
为什么期望与算术平均值相同?
今天,我遇到了一个名为“数学期望”的新主题。我所遵循的书说,期望是来自任何概率分布的随机变量的算术平均值。但是,它将期望定义为某些数据乘积与概率的总和。这两个(平均值和期望值)如何相同?概率与数据之和如何才能成为整个分布的平均值?

6
贝叶斯统计教程
我正在尝试加快贝叶斯统计的速度。我有一些统计背景(STAT 101),但不是太多-我想我可以理解事前,事后和可能性:D。 我现在还不想读贝叶斯教科书。我希望从能够使我快速成长的资源(首选网站)中读取内容。像这样的东西,但是有更多细节。 有什么建议吗?

4
Logistic回归子集选择如何做?
我在R中拟合一个二项式族glm,并且我有一个完整的解释变量组合,所以我需要找到最好的(R平方作为度量是可以的)。缺少编写脚本以遍历解释变量的随机不同组合然后记录执行效果最好的脚本的过程,我真的不知道该怎么办。leaps程序包突飞猛进的功能似乎并没有进行逻辑回归。 任何帮助或建议,将不胜感激。
47 r  logistic 

15
最令人困惑的统计术语
我们的统计学家使用的词语与其他人使用的词语略有不同。当我们教或解释我们在做什么时,这会引起很多问题。我将开始一个列表(现在,我将在每个注释中添加一些定义): 力量是正确拒绝错误的虚假假设的能力。通常,这意味着正确地说“正在发生”。 偏见-如果统计数据与关联的总体参数在系统上有所不同,则该统计数据将产生偏差。 显着性-在以下情况下,结果在统计上具有一定百分比(通常为5%)的显着性:如果样本来源的总体的真实影响为0,则仅会发生至少与样本来源的统计一样极端的统计数据5%的时间。 相互作用-如果因变量和一个自变量之间的关系在另一个自变量的不同级别上不同,则两个自变量相互作用 但是必须有很多其他人!

5
首先学习R包源代码,以研究编写自己的包
我打算开始编写R包。 我认为最好学习现有软件包的源代码,以了解软件包构造的约定。 我学习优质课程的标准: 简单的统计/技术思想:重点是学习包装构造的机理。了解该程序包不要求有关该程序包实际主题的详细的高度特定领域的知识。 简单和常规的编码风格:我在寻找的东西不止于此,Hello World而不仅仅是更多。第一次学习R软件包时,特质的技巧和黑客会分心。 良好的编码风格:编写良好的代码。通常,它揭示了对良好编码的理解以及对R中编码约定的认识。 问题: 哪些套餐适合学习? 为什么相对于上述标准或任何其他可能相关的标准,建议的软件包源代码对于研究起来很好? 更新(13/12/2010) 根据Dirk的评论,我想明确地说,毫无疑问,许多软件包都应该适合初学者。我也同意,软件包将提供用于不同事物的模型(例如,小插图,S3类,S4类,单元测试,Roxygen等)。尽管如此,阅读有关开始时使用好的软件包的具体建议以及为什么它们是开始时使用好的软件包的原因将很有趣。 我还更新了上面的问题,以指代“包装”而不是“包装”。
47 r 

3
是否可以基于曲线形状进行时间序列聚类?
我具有一系列网点的销售数据,并希望根据其随时间变化的曲线形状对其进行分类。数据大致如下所示(但显然不是随机的,并且有一些丢失的数据): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …


14
对解释置信区间进行澄清?
我现在的想法“与置信水平置信区间的理解 ”是,如果我们试图计算置信区间多次(用新鲜的样本,每次),它将包含正确的参数的时间。1 - α1−α1−α1 - \alpha1−α1−α1 - \alpha 尽管我意识到这与“真正参数位于此区间的概率”不同,但我还是要澄清一些事情。 [主要更新] 在我们计算95%的置信区间之前,我们有95%的概率计算出的区间将覆盖真实参数。在计算出置信区间并获得特定区间,我们就不能再说了。我们甚至无法做出某种非经常性的论据,因为我们95%确信真正的参数将位于;因为如果可以的话,它将与诸如此类的反例相矛盾:确切地说,置信区间是多少?[ a ,b ][a,b][a,b][a,b][a,b][a,b][a,b] 我不想就概率论进行辩论;取而代之的是,我正在寻找一种精确的数学解释,说明特定间隔变化方式和原因,以及为什么不改变(或不改变)我们看到该间隔之前有95%的概率。如果您辩称“在看到间隔之后,概率的概念就不再有意义了”,那就好了,让我们对它确实有意义的概率进行解释。[a,b][a,b][a,b] 更确切地说: 假设我们对计算机进行编程以计算95%的置信区间。计算机进行一些数字运算,计算间隔,直到我输入密码后才拒绝显示间隔。在我输入密码并看到间隔之前(但是在计算机已经计算出间隔之后),间隔包含真实参数的概率是多少?这是95%,这部分不值得辩论:这是我对这个特定问题感兴趣的概率的解释(我意识到我正在压制主要的哲学问题,这是有意为之)。 但是,只要我输入密码并让计算机向我显示它计算的间隔,该概率(间隔包含真实参数)就可能改变。任何声称这种可能性永远不会改变的说法将与上述反例相抵触。在此反例中,概率可以从50%变为100%,但是... 是否有任何示例将概率更改为100%或0%以外的值(编辑:如果是,则是什么)? 有没有发现特定间隔之后概率不变的示例(即,真实参数位于的概率仍然是95%)?[ a ,b ][a,b][a,b][a,b][a,b][a,b][a,b] 看到计算机吐出之后,概率一般如何(以及为什么)改变?[a,b][a,b][a,b] [编辑] 感谢您提供的所有出色答案和有用的讨论!


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.