统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
“ p值”的确切值是否没有意义?
早在2009年,我就曾与统计学家进行过讨论,他说p值的确切值无关紧要:唯一重要的是它是否有意义。即一个结果不能比另一个结果更重要;例如,您的样本来自同一人群,也可能来自不同人群。 我对此有些疑惑,但我也许可以理解其意识形态: 5%的阈值是任意的,即p = 0.051并不重要,而p = 0.049则不应真正改变观察或实验的结论,尽管一个结果很重要而另一个结果不重要。 我之所以提出这一点,是因为我正在研究生物信息学理学硕士学位,并且与该领域的人们交谈之后,似乎有坚定的决心要为他们所做的每组统计数据获取准确的p值。例如,如果他们“实现” p <1.9×10 -12的p值,则他们想证明其结果的显着性,并且该结果具有丰富的信息。通过以下问题举例说明了此问题:为什么我的p值不能小于2.2e-16?,因此他们希望记录一个值,该值指示仅凭偶然这将小于万亿分之一。但是,在证明这一结果发生在万亿分之一以下而不是十亿分之一中,我看不出有什么区别。 那么我可以理解,p <0.01表明发生这种情况的可能性不到1%,而p <0.001表明这样的结果比上述p值更不可能发生,但是您得出的结论应该是完全不同?毕竟它们都是重要的p值。我想想想记录确切的p值的唯一方法是在Bonferroni校正过程中,由于比较次数的原因,阈值会发生变化,从而减少了I型错误。但是,即使如此,为什么还要显示一个比阈值有效值小12个数量级的p值? 而且,应用Bonferroni校正本身不是也有些随意吗?从某种意义上说,最初的校正被认为是非常保守的,因此可以进行其他校正,以选择观察者可用于其多次比较的显着性水平。但是正因为如此,根据研究人员想要使用的统计数据,事情并不是变得很重要就本质上不是可变的。统计数据应该这么开放吗? 总之,统计数据是否应该主观性更好(尽管我猜想它需要主观性是多变量系统的结果),但最终我需要澄清一下:某事是否比别的事重要?而且,p <0.001是否足以记录准确的p值?

4
较小的p值是否更有说服力?
我一直在阅读,1型错误率,显着性水平,功效计算,效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉,但是在继续讨论实际问题之前,有必要概述一下我对这些概念的当前理解。ppp 根据我收集到的信息,值只是惊喜的度量,假定原假设为真,则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。ppp 在Neyman-Pearson框架中,您预先选择一个重要级别,并将其用作(任意)截止点。显着性级别等于1类错误率。它由长期运行频率定义,即,如果您要重复进行1000次实验,并且原假设为真,那么由于采样的可变性,其中约有50个实验会产生显着效果。通过选择显着性水平,我们以一定的概率防范这些误报。传统上,不会出现在此框架中。PPP 如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01,1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一,因为通常报告为0.05 *,0.01 **,0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppppppppp 我还意识到ppp值是样本大小的函数。因此,它不能用作绝对测量。较小的ppp值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算很重要。PPP告诉我们是否有影响,而不是影响有多大。参见Sullivan 2012。 我的问题: 我该如何调和ppp值是一种惊喜度量(更小=更具说服力),同时又不能将其视为绝对度量的事实? 我感到困惑的是:我们能否对小ppp值比大p值更有信心?从渔业的角度来说,我会说是的,我们感到更加惊讶。在NP框架中,选择较小的显着性水平意味着我们将更加严格地防范误报。 但另一方面,ppp取决于样本量。它们不是绝对的措施。因此,我们不能简单地说0.001593 比0.0439 有意义。然而,这在费舍尔的框架中将隐含着这样的含义:我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论:将结果称为“高度重要”是否错误? 我听说,某些科学领域的ppp仅在小于0.0001时才被认为是重要的,而在其他领域,大约0.01的值已经被认为具有很高的意义。 相关问题: Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗? 何时使用Fisher和Neyman-Pearson框架? “ p值”的确切值是否没有意义? 与I型错误有关的p值的频繁属性 置信区间与P值的两种平均值 为什么较低的p值不能提供更多的证据来证明原值?Johansson 2011的论点(由@amoeba提供)

3
在Tensorflow中构建自动编码器以超越PCA
Hinton和Salakhutdinov在利用神经网络降低数据的维数方面,《科学》(Science) 2006年提出了通过使用深度自动编码器来实现非线性PCA的方法。我曾多次尝试使用Tensorflow构建和训练PCA自动编码器,但我从未获得过比线性PCA更好的结果。 如何有效地训练自动编码器? (后来由@amoeba编辑:这个问题的原始版本包含Python Tensorflow代码,这些代码无法正常运行。您可以在编辑历史记录中找到它。)

5
线图的颜色和线宽建议
通常,已经有很多关于地图,多边形和阴影区域的色盲友好颜色选择的文章(例如,参见http://colorbrewer2.org)。我无法找到有关线颜色和线图变化线宽的建议。目标是: 容易区分线,即使它们缠绕在一起 带有色盲最常见形式的个人容易区分线条 (不太重要)行是易于打印的(请参见上面的Color Brewer) 在黑色和灰度线的背景下,我发现具有细的黑色线和较粗的灰度线非常有效。我会特别推荐一些建议,包括各种颜色,灰度等级和线条粗细。我不喜欢各种线型(实线/虚线/虚线),但可以不接受这种观点。 最好在一张图表上建议多达10条曲线。更好的做法是像Color Brewer一样:允许m行的建议不成为n行m的n行建议的子集,并且将m从1更改为10。 请注意:我也希望仅针对问题的线条着色部分的指南。 一些从业者在每几厘米的线上添加符号,以更好地区分不同的类别。我不太赞成需要多个功能(例如,颜色+符号类型)来区分类别,并且有时希望保留符号来表示不同的信息。 在没有其他指导的情况下,我建议对colorbrewer2.org中的线使用推荐用于多边形的相同颜色,对于使用较浅/较暗的颜色绘制的线,将线宽乘以2.5。我正在创建一个R函数来进行设置。除了颜色酿造商的颜色,我认为我将使前两种颜色分别是纯黑色(稀薄)和灰度(浓密),尽管有人可能会争辩说它们应该是稀疏的纯黑色和稀薄的蓝色。 R函数可以在http://biostat.mc.vanderbilt.edu/wiki/pub/Main/RConfiguration/Rprofile中找到。定义功能后,colBrew您可以通过键入以下内容查看设置的工作方式 showcolBrew(number of line types) # add grayscale=TRUE to use only grayscale 函数latticeSet还给出了设置lattice图形参数到新的设置。欢迎对算法进行改进。 探索:R dichromat包:http://cran.r-project.org/web/packages/dichromat/

1
负二项式回归问题-模型是否较差?
我正在阅读Sellers和Shmueli撰写的关于计数数据回归模型的非常有趣的文章。在开始时(第944页),他们援引McCullaugh和Nelder(1989)的话说负二项式回归不受欢迎,并且在规范上存在问题。我找到了提到的段落,并说(M和N的第374页) “在应用程序中似乎很少使用负二项式分布;特别是,规范链接的使用是有问题的,因为它使线性预测变量成为方差函数的参数的函数。” 在上一页中,他们将链接功能设置为 η= 日志(α1 + α) = 日志( μμ + k)η=日志⁡(α1个+α)=日志⁡(μμ+ķ)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) 和方差函数 V= μ + μ2ķ。V=μ+μ2ķ。V = \mu + \frac{\mu^2}{k}. 分布为 P[R (ÿ= y; α ,k )= (y+ k − 1 )!ÿ!(k − 1 )!αÿ(1 + α )ÿ= kP[R(ÿ=ÿ;α,ķ)=(ÿ+ķ-1个)!ÿ!(ķ-1个)!αÿ(1个+α)ÿ=ķPr(Y …

2
“深度学习”与多层/分层建模之间有什么区别?
“深度学习”只是多层次/层次建模的另一个术语吗? 我比后者更熟悉后者,但是据我所知,主要区别不在于它们的定义,而是它们在其应用程序域中的使用和评估方式。 看起来,典型的“深度学习”应用程序中的节点数量更多,并且使用通用的层次结构形式,而多级建模的应用程序通常使用层次结构关系来模仿正在建模的生成过程。在应用统计(层次建模)域中使用通用层次结构将被视为现象的“不正确”模型,而对特定领域的层次结构进行建模可能被视为颠覆了制造通用深度学习机器的目标。 这两件事是否真的是同一台机器,但使用两种不同的名称,以两种不同的方式使用?

4
为什么较低的p值不能提供更多的证据来证明原值?2011年约翰逊的观点
Johansson(2011)在“ 向不可能的事物致敬:p值,证据和可能性 ”(也与期刊链接)中指出,较低的通常被认为是抵制零值的有力证据。约翰逊(Johansson)暗示,如果他们的统计检验输出值为,那么人们会认为反对零值的证据要比他们的统计检验输出值为更好。Johansson列出了无法将值用作反对null的证据的四个原因:pppppp0.010.010.01ppp0.450.450.45ppp ppp is uniformly distributed under the null hypothesis and can therefore never indicate evidence for the null. ppp is conditioned solely on the null hypothesis and is therefore unsuited to quantify evidence, because evidence is always relative in the sense of being evidence for or against a …

1
GBM参数有哪些有用的准则?
使用GBM来测试参数(例如,交互深度,最小子集,采样率等)的一些有用准则是什么? 假设我有70-100个要素,一个200,000人口,并且我打算测试3和4的交互深度。显然,我需要进行一些测试,以查看哪些参数组合可以保持最佳的样本外。关于如何进行此测试设计的任何建议?

1
大型稀疏矩阵上的降维(SVD或PCA)
/ edit:现在可以进行进一步跟进,您可以使用irlba :: prcomp_irlba / edit:跟进我自己的帖子。 irlba现在具有“中心”和“比例”自变量,可用于计算主成分,例如: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v 我Matrix想在机器学习算法中使用大量稀疏的功能: library(Matrix) set.seed(42) rows <- 500000 cols <- 10000 i <- unlist(lapply(1:rows, function(i) rep(i, sample(1:5,1)))) j <- sample(1:cols, length(i), replace=TRUE) M <- sparseMatrix(i, j) 因为此矩阵有很多列,所以我想将其维数减少到更易于管理的程度。我可以使用出色的irlba软件包执行SVD并返回前n个主要成分(此处显示5个;我可能会在实际数据集中使用100或500): library(irlba) pc <- irlba(M, nu=5)$u 但是,我已经读过在执行PCA之前,应该将矩阵居中(从每一列中减去列均值)。这在我的数据集上很难做到,而且会破坏矩阵的稀疏性。 对未缩放的数据执行SVD,并将其直接输入到机器学习算法中有多“糟糕”?在保留矩阵稀疏性的同时,是否有任何有效的方法可以缩放此数据? / edit:B_miner引起我注意的“ …

8
用均值替换离群值
我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。 问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?

5
从许多自变量中检测出重要的预测变量
在两个非重叠人群(患者和健康人群,总计n=60n=60n=60)的数据集中,我想(从300300300独立变量中)找到连续因变量的重要预测因子。存在预测变量之间的相关性。我有兴趣了解是否有任何预测变量与“现实中”的因变量相关(而不是尽可能准确地预测因变量)。当我对众多可能的方法不知所措时,我想问一问最推荐哪种方法。 根据我的理解,不建议逐步加入或排除预测变量 例如,对每个预测变量分别运行线性回归,并使用FDR校正p值以进行多次比较(可能非常保守?) 主成分回归:难以解释,因为我无法讲述单个预测变量的预测能力,而只能讲述成分。 还有其他建议吗?

3
为什么需要变量选择?
常见的基于数据的变量选择过程(例如,向前,向后,逐步,所有子集)倾向于产生具有不良特性的模型,包括: 系数偏离零。 标准误差太小,置信区间太窄。 测试不具有广告含义的统计信息和p值。 对模型拟合的估计过于乐观。 可能无意义的包含术语(例如,排除低阶术语)。 但是,变量选择过程仍然存在。考虑到变量选择的问题,为什么需要这些程序?是什么促使他们使用它? 一些提议开始讨论。 是否希望获得可解释的回归系数?(在具有多个IV的模型中被误导了吗?) 消除不相关变量引入的方差? 在自变量中消除不必要的协方差/冗余吗? 减少参数估计的数量(功效,样本量) 还有其他吗?变量选择技术所解决的问题是否比变量选择程序所引入的问题重要?什么时候应该使用它们?什么时候不应该使用它们?


1
是否有来自“圣经密码”插曲的统计课程
尽管这个问题有些主观,但我希望根据常见问题解答指南,它可以视为一个很好的主观问题。它是基于一年前OlleHäggström提出的一个问题,尽管我对此有一些想法,但我没有确切的答案,也希望得到其他人的帮助。 背景: D. Witztum,E。Rips和Y. Rosenberg撰写的题为“创世记中的等距字母序列”的论文提出了非同寻常的主张,即《创世记》的希伯来语文本编码的事件直到文本出现几千年后才发生被写了。该论文于1994年由“统计科学”出版(第9 429-438卷),并作为“具有挑战性的难题”提供,其解决方案可能对统计领域有所帮助。 作为回应,B。McKay,D。Bar-Natan,M。Bar-Hillel和G. Kalai撰写的另一篇名为“解决圣经密码难题”的论文于1999年出现在统计科学中(第14卷(1999年)150-173页) 。新论文认为,Witztum,Rips和Rosenberg的案件存在致命缺陷,确实,他们的结果仅反映了在设计实验和收集实验数据时所做出的选择。本文提供了广泛的证据来支持该结论。 (我自己的兴趣在我们的文章的第8节中得到了概括,在与Bar Hillel和Mckay撰写的另一份技术报告中做了详细介绍,该报告的标题为“两个著名的拉比实验:多么相似太相似了?”,另请参见本网站。 问题: OlleHäggström的具体问题是: “我曾经建议您的论文可能对高级本科生的统计课程有用,目的是说明数据挖掘和相关技术的缺陷。您同意吗?” 除了Olle的问题外,让我提出一个更笼统的问题。 是否有一些与我们所学到的统计资料有关的东西,(也许包括一些有趣的问题)是从《圣经》中获得的。 为了清楚起见,我的问题仅限于与统计相关的见解,而不是本集的任何其他方面。

3
Goodman-Kruskal伽玛和Kendall tau或Spearman rho相关性如何比较?
在我的工作中,我们正在比较某些数据集的预测排名与真实排名。直到最近,我们一直单独使用Kendall-Tau。一个从事类似项目的小组建议我们尝试改用Goodman-Kruskal Gamma,他们更喜欢它。我想知道不同等级相关算法之间的区别是什么。 我找到的最好的答案就是该答案,它声称使用Spearman代替了通常的线性相关,并且Kendall-Tau不太直接,更类似于Goodman-Kruskal Gamma。我正在使用的数据似乎没有任何明显的线性相关性,并且数据严重偏斜且非正态。 而且,对于我们的数据,Spearman通常报告的关联性高于Kendall-Tau,我想知道关于数据的具体含义。我不是统计学家,所以抱歉,我正在阅读的某些论文对我而言像是行话。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.