Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。


8
我应该先教贝叶斯统计还是常客统计?
我正在帮助正在读中学的男孩们了解统计学,并且我正在考虑从一些简单的例子开始,而不必理会理论上的一些内容。 我的目标是给他们一种最直观但最有建设性的方法,以从头开始学习统计学,以激发他们对进一步追求统计学和定量学习的兴趣。 不过,在开始之前,我有一个特别的问题,它具有非常普遍的含义: 我们是否应该开始使用贝叶斯或常客制框架教授统计学? 到处进行研究,我发现一种常见的方法是从对常客统计学的简要介绍开始,然后再深入讨论贝叶斯统计(例如Stangl)。

3
是否可以更改假设以匹配观察到的数据(又称捕鱼探险)并避免I型错误增加?
众所周知,研究人员应该花时间观察和探索现有数据并进行研究,然后再形成假设,然后收集数据以检验该假设(指零假设重要性检验)。许多基础统计书籍警告说,假设必须先验形成,并且在数据收集后不能更改,否则该方法将无效。 我了解更改假设以适合观察到的数据存在问题的一个原因是,由于虚假数据而导致发生I类错误的可能性更大,但是我的问题是:这是唯一的原因,或者是否还有其他基本问题参加钓鱼探险? 作为一个额外的问题,是否有办法在不使自己暴露于潜在陷阱的情况下进行钓鱼?例如,如果您有足够的数据,是否可以从一半的数据生成假设,然后使用另一半进行检验? 更新 我很感激我对这个问题的兴趣,但是答案和评论主要针对的是我认为我作为背景信息确定的内容。我想知道是否还有其他原因导致它比伪造结果的可能性更高,并且是否有其他方法(例如先拆分数据)事后更改假设,但又避免了I类错误的增加。 我已经更新标题以希望反映出我的问题的重点。 谢谢,对不起您的困惑!

2
可视化数据后执行统计测试-数据挖掘?
我将通过一个示例提出这个问题。 假设我有一个数据集,例如波士顿住房价格数据集,其中有连续的和分类的变量。在这里,我们有一个“质量”变量(从1到10)和销售价格。通过(任意)创建质量截止值,我可以将数据分为“低”,“中”和“高”质量房屋。然后,使用这些分组,我可以绘制销售价格的直方图。像这样: 在此,“低”是,和“高”是> 7上的“质量”的分数。现在,我们可以得出三个组中每个组的销售价格分布。显然,中型和高质量房屋的位置中心不同。现在,完成所有这些操作后,我认为“嗯。位置中心似乎有所不同!为什么不对均值进行t检验?”。然后,我得到一个p值,它似乎正确地拒绝了均值没有差异的零假设。≤ 3≤3\leq 3> 7>7>7 现在,假设在绘制数据之前,我没有想到要检验此假设。 这是在挖泥吗? 如果我想:“我敢打赌,优质房子的价格会更高,因为我以前是住在这所房子里的人。我要对数据进行绘图。啊哈!看起来不一样!时间还在吗?”进行t检验!” 自然地,如果收集数据集是为了一开始就检验这个假设,那不是数据挖掘。但是通常必须处理提供给我们的数据集,并被告知“寻找模式”。考虑到这个模糊的任务,某人如何避免数据挖掘?创建测试数据的保留集?可视化是否“算作”窥探机会来测试数据提出的假设?

4
较小的p值是否更有说服力?
我一直在阅读,1型错误率,显着性水平,功效计算,效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉,但是在继续讨论实际问题之前,有必要概述一下我对这些概念的当前理解。ppp 根据我收集到的信息,值只是惊喜的度量,假定原假设为真,则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。ppp 在Neyman-Pearson框架中,您预先选择一个重要级别,并将其用作(任意)截止点。显着性级别等于1类错误率。它由长期运行频率定义,即,如果您要重复进行1000次实验,并且原假设为真,那么由于采样的可变性,其中约有50个实验会产生显着效果。通过选择显着性水平,我们以一定的概率防范这些误报。传统上,不会出现在此框架中。PPP 如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01,1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一,因为通常报告为0.05 *,0.01 **,0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppppppppp 我还意识到ppp值是样本大小的函数。因此,它不能用作绝对测量。较小的ppp值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算很重要。PPP告诉我们是否有影响,而不是影响有多大。参见Sullivan 2012。 我的问题: 我该如何调和ppp值是一种惊喜度量(更小=更具说服力),同时又不能将其视为绝对度量的事实? 我感到困惑的是:我们能否对小ppp值比大p值更有信心?从渔业的角度来说,我会说是的,我们感到更加惊讶。在NP框架中,选择较小的显着性水平意味着我们将更加严格地防范误报。 但另一方面,ppp取决于样本量。它们不是绝对的措施。因此,我们不能简单地说0.001593 比0.0439 有意义。然而,这在费舍尔的框架中将隐含着这样的含义:我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论:将结果称为“高度重要”是否错误? 我听说,某些科学领域的ppp仅在小于0.0001时才被认为是重要的,而在其他领域,大约0.01的值已经被认为具有很高的意义。 相关问题: Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗? 何时使用Fisher和Neyman-Pearson框架? “ p值”的确切值是否没有意义? 与I型错误有关的p值的频繁属性 置信区间与P值的两种平均值 为什么较低的p值不能提供更多的证据来证明原值?Johansson 2011的论点(由@amoeba提供)

4
为什么较低的p值不能提供更多的证据来证明原值?2011年约翰逊的观点
Johansson(2011)在“ 向不可能的事物致敬:p值,证据和可能性 ”(也与期刊链接)中指出,较低的通常被认为是抵制零值的有力证据。约翰逊(Johansson)暗示,如果他们的统计检验输出值为,那么人们会认为反对零值的证据要比他们的统计检验输出值为更好。Johansson列出了无法将值用作反对null的证据的四个原因:pppppp0.010.010.01ppp0.450.450.45ppp ppp is uniformly distributed under the null hypothesis and can therefore never indicate evidence for the null. ppp is conditioned solely on the null hypothesis and is therefore unsuited to quantify evidence, because evidence is always relative in the sense of being evidence for or against a …

1
GBM参数有哪些有用的准则?
使用GBM来测试参数(例如,交互深度,最小子集,采样率等)的一些有用准则是什么? 假设我有70-100个要素,一个200,000人口,并且我打算测试3和4的交互深度。显然,我需要进行一些测试,以查看哪些参数组合可以保持最佳的样本外。关于如何进行此测试设计的任何建议?

1
是否有来自“圣经密码”插曲的统计课程
尽管这个问题有些主观,但我希望根据常见问题解答指南,它可以视为一个很好的主观问题。它是基于一年前OlleHäggström提出的一个问题,尽管我对此有一些想法,但我没有确切的答案,也希望得到其他人的帮助。 背景: D. Witztum,E。Rips和Y. Rosenberg撰写的题为“创世记中的等距字母序列”的论文提出了非同寻常的主张,即《创世记》的希伯来语文本编码的事件直到文本出现几千年后才发生被写了。该论文于1994年由“统计科学”出版(第9 429-438卷),并作为“具有挑战性的难题”提供,其解决方案可能对统计领域有所帮助。 作为回应,B。McKay,D。Bar-Natan,M。Bar-Hillel和G. Kalai撰写的另一篇名为“解决圣经密码难题”的论文于1999年出现在统计科学中(第14卷(1999年)150-173页) 。新论文认为,Witztum,Rips和Rosenberg的案件存在致命缺陷,确实,他们的结果仅反映了在设计实验和收集实验数据时所做出的选择。本文提供了广泛的证据来支持该结论。 (我自己的兴趣在我们的文章的第8节中得到了概括,在与Bar Hillel和Mckay撰写的另一份技术报告中做了详细介绍,该报告的标题为“两个著名的拉比实验:多么相似太相似了?”,另请参见本网站。 问题: OlleHäggström的具体问题是: “我曾经建议您的论文可能对高级本科生的统计课程有用,目的是说明数据挖掘和相关技术的缺陷。您同意吗?” 除了Olle的问题外,让我提出一个更笼统的问题。 是否有一些与我们所学到的统计资料有关的东西,(也许包括一些有趣的问题)是从《圣经》中获得的。 为了清楚起见,我的问题仅限于与统计相关的见解,而不是本集的任何其他方面。

3
置信区间与t检验的检验统计假设之间的关系
众所周知,置信区间和检验统计假设密切相关。我的问题集中在基于数值变量的两组均值比较上。假设使用t检验检验了这种假设。另一方面,可以计算两组均值的置信区间。置信区间的重叠与均值相等的零假设的拒绝之间是否存在任何关系(有利于均值不同的备选方案-双向检验)?例如,如果置信区间不重叠,则测试可能会拒绝原假设。


3
对同行评审开放源期刊的建议?
我有一个用于测试均值假设的自举方法的手稿,我想将其发送以供发表,但我有一个道德困境。我已经签署了抗议Elsevier的不道德商业行为的抗议书,并且阅读了整个问题确实使我质疑其他营利性学术期刊的道德。因此,我想在非营利性期刊(最好是开源期刊)上发表文章,即使我了解,就声望而言,这类期刊尚未与较成熟的期刊相提并论。幸运的是,由于我已经任职,所以这对我来说不是一个大考虑。 我将不胜感激任何建议。

4
检查两个泊松样本的均值是否相同
这是一个基本问题,但我找不到答案。我有两个测量值:时间t1中的n1个事件和时间t2中的n2个事件,它们都是由泊松过程(可能具有不同的lambda值)产生的。 这实际上是来自新闻文章,该文章本质上声称自以来,两者是不同的,但是我不确定该声明是否有效。假设未恶意选择时间段(以最大化一个或另一个事件)。n1/t1≠n2/t2n1/t1≠n2/t2n_1/t_1\neq n_2/t_2 我可以做一个t检验,还是不合适?对于我来说,事件的数量太少了,无法轻松地将分布称为正常分布。

4
《科学》杂志是否认可“分叉路径分析花园”?
自适应数据分析的思想是,随着您了解更多有关数据的信息,您将更改其分析计划。对于探索性数据分析(EDA),通常这是一个好主意(您经常在数据中寻找无法预料的模式),但是对于验证性研究,这被广泛认为是一种非常有缺陷的分析方法(除非所有步骤已明确定义,并已预先适当计划)。 话虽这么说,自适应数据分析是典型的许多研究人员实际上如何进行他们的分析,很多统计人员的不舍。这样,如果人们能够以一种统计有效的方式做到这一点,它将彻底改变统计实践。 以下《科学》杂志声称已经找到了一种方法(我对此深表歉意,但如果您在大学里,很可能可以使用):Dwork等人,2015年,可重用的保留:在自适应数据分析中保持有效性。 就我个人而言,我一直对《科学》杂志上发表的统计文章持怀疑态度,这一点也没有什么不同。实际上,在仔细阅读了文章(包括补充材料)两次之后,我根本无法理解(为什么)作者声称他们的方法可以防止过拟合。 我的理解是他们有一个保留数据集,可以重复使用。他们似乎声称通过对验证数据集上的确认分析输出进行“模糊处理”,从而避免了过度拟合(值得注意的是,如果对训练数据的计算统计数据足够模糊,则模糊处理似乎只是在增加噪声。根据对保留数据计算的统计信息)。据我所知,没有真正的理由可以防止过度拟合。 我是否误解了作者的提议?我忽略了一些微妙的影响吗?还是《科学》杂志 认可了迄今为止最糟糕的统计实践?

5
在统计学和机器学习中区分两组:假设检验vs.分类vs.聚类
假设我有两个数据组,分别标记为A和B(每个数据组包含200个样本和1个特征),我想知道它们是否不同。我可以: a)进行统计检验(例如t检验)以查看它们是否在统计上不同。 b)使用监督机器学习(例如,支持向量分类器或随机森林分类器)。我可以对部分数据进行训练,然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类,那么我可以确定样本是可区分的。 c)使用无监督算法(例如K-Means),然后将所有数据分为两个样本。然后,我可以检查找到的这两个样本是否与我的标签A和B一致。 我的问题是: 这三种不同方式如何重叠/排斥? b)和c)对任何科学论证有用吗? 如何从方法b)和c)中获得样品A和B之间差异的“重要性”? 如果数据具有多个功能而不是1个功能,将会发生什么变化? 如果它们包含不同数量的样本(例如100对300)会怎样?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.