统计和大数据 type-i-and-ii-errors

30

我不是受过教育的统计学家，而是软件工程师。然而统计数字很多。实际上，在我参加认证软件开发助理考试的过程中，很多关于类型I和类型II错误的问题出现了很多（数学和统计学占考试的10％）。我总是很难为I型和II型错误提出正确的定义-尽管我现在正在记住它们（并且大多数时间都可以记住它们），但我真的不想冻结这次考试试图记住有什么区别。我知道类型I错误是假阳性，或者当您拒绝原假设时它是真的，而类型II错误是假否定，或者当您接受原假设并且它实际上是假时。是否有一种简单的方法来记住区别是什么，例如助记符？专业统计学家如何做到这一点-他们只是通过经常使用或讨论而了解到什么？（旁注：这个问题可能可以使用一些更好的标签。我想要创建的一个标签是“术语”，但是我没有足够的声誉来做到这一点。如果有人可以添加它，那就太好了。谢谢。）

88 terminology type-i-and-ii-errors

5

为什么在获得重要结果之前收集数据会增加I型错误率？

我确实想知道为什么收集数据直到获得显着结果（例如）（即p-hacking）会增加I型错误率？p < .05p<.05p \lt .05 我也非常感谢R对此现象的演示。

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

6

Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗？

存在某种思想流派，据此，最广泛的统计检验方法是两种方法之间的“混合”：费舍尔方法和内曼-皮尔森方法；声称，这两种方法是“不兼容的”，因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号，但就目前而言，在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上，@ Michael Lew反复提出了这一点（请参见此处和此处）。我的问题是：为什么声称F和NP方法不兼容，为什么混合方法不连贯？请注意，我至少阅读了六篇反混合论文（请参阅下文），但仍然无法理解问题或论点。还请注意，我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反，问题是：如果接受F和NP都是有效且有意义的方法，那么它们的混合到底有什么不好呢？这是我对情况的了解。Fisher的方法是计算值，并将其作为反对原假设的证据。越小，证据越有说服力。研究人员应该将此证据与他的背景知识相结合，确定其是否足以令人信服，并据此进行研究。（请注意，费舍尔的观点多年来一直在变化，但这似乎是他最终收敛的。）相比之下，内曼·皮尔森的方法是提前选择，然后检查p α p ≤ αppppppαα\alphap ≤ αp≤αp\le\alpha; 如果是这样，则将其称为有意义的，并拒绝零假设（在此，我省略了与当前讨论无关的NP故事的大部分内容）。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复。混合方法是计算值，将其报告（隐式假设值越小越好），如果（通常为），则结果也显着，否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p ≤ α α = 0.05pppp ≤ αp≤αp\le\alphaα = 0.05α=0.05\alpha=0.05 由于特别不连贯，抗杂交主义者认为报告的普遍做法是，或（甚至），其中总是选择最强的不等式。该论点似乎是：（a）由于没有报告确切的而无法正确评估证据的强度，（b）人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率，那是错误的。我在这里看不到大问题。首先，报告精确的当然是更好的做法，但是没有人真正关心是否为或p < 0.05 p < 0.01 p < 0.001 p « 0.0001 p α p p 0.02 0.03 〜0.0001 0.05 α = 0.05 p ≠ α αpppp < …

56 hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

1

为什么名称Type 1、2错误？

从描述性“假阳性”到整数“ 1”引入额外的间接级别的动机是什么？“误报”真的太长了吗？

21 terminology frequentist type-i-and-ii-errors

3

如何以及何时使用Bonferroni调整

关于何时使用Bonferroni调整，我有两个问题：在多次测试的所有情况下都使用Bonferroni调整是否合适？如果对数据集执行测试，则将数据集划分为更细的级别（例如，按性别划分数据）并执行相同的测试，这将如何影响感知到的单个测试的数量？也就是说，如果在包含来自男性和女性的数据的数据集上测试了X个假设，然后将数据集拆分为分别提供男性和女性数据并测试了相同的假设，那么各个假设的数量将保持为X还是由于额外的测试？谢谢您的意见。

21 multiple-comparisons bonferroni type-i-and-ii-errors

2

FPR（误报率）与FDR（误发现率）

以下引文来自Storey＆Tibshirani（2003）的著名研究论文《统计意义对于全基因组研究》：例如，假阳性率为5％意味着研究中平均5％的真正无效特征将被称为显着。FDR（错误发现率）为5％意味着在所有被称为重要功能的特征中，其中平均5％确实是无效的。有人可以使用简单的数字或视觉示例来解释这意味着什么吗？我很难理解它的含义。我仅在FDR或FPR上找到了各种帖子，但没有找到进行具体比较的地方。如果这方面的专家可以举例说明一个人比另一个人好，或者两者都好或坏的情况，那将特别好。

20 hypothesis-testing false-discovery-rate type-i-and-ii-errors confusion-matrix false-positive-rate

4

边缘情况下精度和召回率的正确值是多少？

精度定义为： p = true positives / (true positives + false positives) 对不对，作为true positives和false positives做法0，精度接近1？召回相同的问题： r = true positives / (true positives + false negatives) 我目前正在实施统计测试，需要计算这些值，有时分母为0，我想知道在这种情况下应返回哪个值。 PS：请原谅，不恰当的标签，我想用recall，precision和limit，但我不能创造新的标签呢。

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

负二项式GLM与计数数据的对数转换：I型错误率增加

你们中有些人可能已经读过这篇不错的论文： O'Hara RB，Kotze DJ（2010）不要对计数数据进行对数转换。《生态与进化方法》 1：18–122。克利克。在我的研究领域（生态毒理学）中，我们正在处理重复性较差的实验，并且GLM并未得到广泛使用。因此，我进行了类似于O'Hara＆Kotze（2010）的模拟，但是模拟了生态毒理学数据。功率模拟：我模拟了一个有一个对照组（）和5个治疗组（）的阶乘设计的数据。处理1中的丰度与对照（）相同，处理2-5中的丰度是对照中的丰度的一半（）。对于模拟，我改变了样本大小（3、6、9、12）和对照组的丰度（2、4、8，...，1024）。从具有固定色散参数（）的负二项式分布中提取丰度。使用负二项式GLM和高斯GLM +对数转换的数据生成并分析了100个数据集。μ 1 - 5 μ 1 = μ Ç μ 2 - 5 = 0.5 μ C ^ θ = 3.91μCμc\mu_cμ1 - 5μ1−5\mu_{1-5}μ1个= μCμ1个=μC\mu_1 = \mu_cμ2 - 5= 0.5 μCμ2-5=0.5μC\mu_{2-5} = 0.5 \mu_c角= 3.91θ=3.91\theta = 3.91 结果符合预期：GLM具有更大的功效，尤其是在采样的动物不多的情况下。代码在这里。类型I错误：接下来，我看了一眼错误。如上所述进行模拟，但是所有组具有相同的丰度（）。μC= μ1 - …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

3

可选的停止规则不在教科书中

停止规则会影响P值与决策相关的错误率之间的关系。Simmons等人的最新论文。2011年创造了一个术语“ 研究人员自由度”来描述一系列行为，他们认为这些行为是造成心理学文献中许多报告不可重复的报告的原因。在这些行为中，我当前感兴趣的是可选的停止规则或未声明的临时分析。我向学生描述了它们对错误率的影响，但似乎在我的学生所使用的教科书中没有描述（或不描述）采用！）。在我大学的主书店中，有十四本针对生物科学，商业，工程等各个学科的入门级学生的统计教科书。这些教科书中只有一本包含索引项“顺序测试”，而没有一个索引项“停止规则”。是否有入门级的统计教科书来说明可选的停止规则的问题？西蒙斯（JP），尼尔森（LD）和西蒙索恩（U）（2011）。错误正面心理学：数据收集和分析中未公开的灵活性允许提出任何有意义的内容。心理科学，22（11），1359–1366。doi：10.1177 / 0956797611417632

16 references type-i-and-ii-errors optimal-stopping

2

如何严格证明选择的假阳性/假阴性错误率和潜在成本比率？

语境一组社会科学家和统计学家（Benjamin等人，2017年）最近建议，用作确定“统计意义”的阈值的典型假阳性率（ = .05）需要调整为更保守的阈值（ = .005）。一群竞争激烈的社会科学家和统计学家（Lakens等，2018）做出了回应，反对使用这个-或任何其他-任意选择的阈值。以下是Lakens等人的报价。（第16页）有助于举例说明我的问题的主题：ααα\alphaαα\alpha 理想情况下，通过使用决策理论将成本和收益与效用函数进行比较来确定Alpha级别。与从难以获得的样本中收集数据相比，这种成本效益分析（因此也就是alpha水平）在分析现有的大型数据集时有所不同。科学是多种多样的，这取决于科学家来证明他们决定使用的Alpha水平。...研究应遵循严格的科学原理，而不是启发法和任意的门槛。题我想知道如何才能像Lakens等人那样以“受严格科学原理指导”的方式证明所选alpha的合理性。建议，在大多数社会科学背景下（即在某些情况下，人们需要更具体的素质（例如利润）来优化）？随着Lakens等人的传播，我开始看到在线计算器在流通，以帮助研究人员做出这一决定。研究人员在使用它们时，需要指定假阳性和假阴性错误的“成本比”。然而，由于这个计算器在这里建议，确定这样的成本比可能涉及大量的定量猜测工作：尽管有些错误成本很容易用货币来量化（直接成本），而其他错误成本却很难将零头的金额（间接成本）量化。...尽管难以量化，但您仍应努力给他们加一个数字。例如，尽管Lakens等。建议研究难以达到的样本，作为在证明α时可能要考虑的一个因素，似乎人们仍在猜测该样本难以达到的程度，从而如何相应地调整alpha的选择。再举一个例子，对我而言，要量化发表假阳性的成本似乎是困难的，要看别人随后会投入多少时间/金钱来进行基于错误推论的研究。如果确定此成本比率在很大程度上是主观猜测的问题，那么我想知道这些决定是否能够（再次，除了优化诸如利润之类的）“合理化”。就是说，以某种方式存在于关于采样，权衡，影响等的假设之外？以这种方式，在我看来，确定假阳性/假阴性错误的成本比似乎类似于选择贝叶斯推断中的先验-这个决定可能是主观的，会影响结果，因此引起争议- -尽管我不确定这是否是合理的比较。摘要为了使我的询问具体：在大多数社会科学背景下，假阳性率/假阴性率及其成本比率是否能被“严格”证明是正确的？如果是这样，可以遵循哪些通用原则来证明这些分析选择是合理的（可能是其中一个或两个示例在起作用）如果不是，我在选择成本比时的潜在主观性（类似于贝叶斯优先选择）是否合理？参考文献本杰明（DJ），伯杰（J. 重新定义统计意义。取自psyarxiv.com/mky9j Lakens，D.，Adolfi，FG，Albers，CJ，Anvari，F.，Apps，MA，... Zwaan，RA（2018年1月15日）。证明你的阿尔法。取自psyarxiv.com/9s3y6

12 hypothesis-testing p-value power type-i-and-ii-errors

1

反复测试累积数据时出现总体I型错误

我对组顺序方法有疑问。根据维基百科：在具有两个治疗组的随机试验中，按以下方式使用经典组顺序测试：如果每个组中有n位受试者可用，则对2n位受试者进行中期分析。进行统计分析以比较两组，如果接受替代假设，则终止试验。否则，将继续试验另外2n名受试者，每组n名受试者。再次对4n名受试者进行统计分析。如果接受了替代方案，则审判终止。否则，它将继续进行定期评估，直到N组2n个主题可用为止。此时，将进行最后一次统计检验，并且该试验将终止但是通过以这种方式反复测试累积数据，I型错误级别被夸大了…… 如果样本彼此独立，则总的I类错误将为α⋆α⋆\alpha^{\star} α⋆=1−(1−α)kα⋆=1−(1−α)k\alpha^{\star} = 1 - (1 - \alpha)^k 其中是每个测试的级别，是临时外观的数量。αα\alphakkk 但是样本不是独立的，因为它们重叠。假设以相等的信息增量执行临时分析，则可以发现（幻灯片6）您能解释一下该表格的获取方式吗？

12 multiple-comparisons clinical-trials type-i-and-ii-errors

2

如何找到II型错误的可能性？

我知道类型II错误是H1为true，但H0不被拒绝的地方。题在已知标准偏差的情况下，如何计算涉及正态分布的II型错误的概率？

12 probability power-analysis type-i-and-ii-errors

2

了解Gelman＆Carlin“超越功率计算：…”（2014）

我正在阅读Gelman＆Carlin “超越功率计算：评估S型（符号）和M型（幅值）错误”（2014年）。我试图理解主要思想，主要思路，但我感到困惑。有人可以帮我提炼精华吗？这篇论文是这样的（如果我理解正确的话）。心理学方面的统计研究经常受到小样本困扰。在给定的研究中，以统计学上显着的结果为条件，（1）可能会严重高估真实的效应量；（2）除非有足够大的样本量，否则效应的迹象很有可能相反。以上是使用对种群效应大小的先验猜测显示的，通常认为效应很小。我的第一个问题是，为什么要以统计显著性为条件？是否反映了出版偏见？但这似乎并非如此。那为什么呢？我的第二个问题是，如果我自己进行研究，是否应该对结果进行不同于以往的处理（我做常客统计，对贝叶斯不太熟悉）？例如，我将获取一个数据样本，估算一个模型，并记录一个点估算值，以获取感兴趣的效果以及围绕它的置信度。我现在应该怀疑我的结果吗？如果统计意义重大，还是应该不信任它？给定的任何先前更改如何？（1）统计研究的“生产者”和（2）应用统计论文的读者的主要收获是什么？参考文献：盖尔曼，安德鲁和约翰·卡林。“超出功率计算：评估类型S（符号）和类型M（幅度）错误。” 心理科学观点 9.6（2014）：641-651。 PS：我认为对我来说，新的要点是包括先验信息，我不确定该如何对待（来自常客主义范式）。

11 statistical-significance effect-size power type-i-and-ii-errors

3

I型和II型错误的概率是否负相关？

在我作为助教的基础统计课上，这位教授说，随着I型错误的概率增加，II型错误的概率降低，反之亦然。因此，这向我表明。αα\alphaββ\betaρα ，β< 0ρα，β<0\rho_{\alpha, \beta} < 0 但是对于一般的假设检验，如何证明这一点呢？总体而言，该说法是否正确？我可以尝试一个特定的情况（例如和），但是显然，这不足以解决这个问题。H0：μ = μ0H0：μ=μ0H_0: \mu = \mu_0H1个：μ < μ0H1个：μ<μ0H_1: \mu < \mu_0

11 probability hypothesis-testing type-i-and-ii-errors

2

“自由” p值？

我的问题是语义上的。当一种方法通常产生高p值时，称为保守方法。您会说相反的意思吗，即II型错误率高的自由方法？

11 hypothesis-testing statistical-significance p-value terminology type-i-and-ii-errors

Questions tagged «type-i-and-ii-errors»