统计和大数据 confidence-interval

4

我一直在阅读，1型错误率，显着性水平，功效计算，效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉，但是在继续讨论实际问题之前，有必要概述一下我对这些概念的当前理解。ppp 根据我收集到的信息，值只是惊喜的度量，假定原假设为真，则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。ppp 在Neyman-Pearson框架中，您预先选择一个重要级别，并将其用作（任意）截止点。显着性级别等于1类错误率。它由长期运行频率定义，即，如果您要重复进行1000次实验，并且原假设为真，那么由于采样的可变性，其中约有50个实验会产生显着效果。通过选择显着性水平，我们以一定的概率防范这些误报。传统上，不会出现在此框架中。PPP 如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01，1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一，因为通常报告为0.05 *，0.01 **，0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppppppppp 我还意识到ppp值是样本大小的函数。因此，它不能用作绝对测量。较小的ppp值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题，在确定实验的样本量时执行功效/效应量计算很重要。PPP告诉我们是否有影响，而不是影响有多大。参见Sullivan 2012。我的问题：我该如何调和ppp值是一种惊喜度量（更小=更具说服力），同时又不能将其视为绝对度量的事实？我感到困惑的是：我们能否对小ppp值比大p值更有信心？从渔业的角度来说，我会说是的，我们感到更加惊讶。在NP框架中，选择较小的显着性水平意味着我们将更加严格地防范误报。但另一方面，ppp取决于样本量。它们不是绝对的措施。因此，我们不能简单地说0.001593 比0.0439 有意义。然而，这在费舍尔的框架中将隐含着这样的含义：我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论：将结果称为“高度重要”是否错误？我听说，某些科学领域的ppp仅在小于0.0001时才被认为是重要的，而在其他领域，大约0.01的值已经被认为具有很高的意义。相关问题： Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗？何时使用Fisher和Neyman-Pearson框架？ “ p值”的确切值是否没有意义？与I型错误有关的p值的频繁属性置信区间与P值的两种平均值为什么较低的p值不能提供更多的证据来证明原值？Johansson 2011的论点（由@amoeba提供）

31 hypothesis-testing statistical-significance confidence-interval p-value effect-size

3

置信区间与t检验的检验统计假设之间的关系

众所周知，置信区间和检验统计假设密切相关。我的问题集中在基于数值变量的两组均值比较上。假设使用t检验检验了这种假设。另一方面，可以计算两组均值的置信区间。置信区间的重叠与均值相等的零假设的拒绝之间是否存在任何关系（有利于均值不同的备选方案-双向检验）？例如，如果置信区间不重叠，则测试可能会拒绝原假设。

31 hypothesis-testing confidence-interval

4

绝对不应该使用百分位引导程序吗？

在MIT OpenCourseWare注释（2014年春季，18.05概率与统计简介）中（当前可在此处获取）中指出：引导百分位数方法由于其简单性而具有吸引力。但是，这取决于的引导程序分布，该引导分布基于特定的样本，它是真实分布的良好近似。赖斯谈到百分位数方法时说：“尽管这个具有置信度限制的自举抽样分布的分位数的直接方程最初看起来很吸引人，但其原理有些模糊。” [2]简而言之，不要使用自举百分位数方法。请改用经验引导程序（我们已经对这两种方法进行了说明，希望您不要将经验引导程序与百分位数引导程序混淆）。 ˉ XX¯∗x¯∗\bar{x}^{*}X¯x¯\bar{x} [2] John Rice，《数学统计和数据分析》，第2版，第2页。272 经过一番在线搜索之后，这是我发现的唯一引述，它完全表明不应使用百分位数引导程序。我记得Clarke等人从“ 数据挖掘和机器学习的原理和理论 ”一文中读到的内容。是引导的主要理由是其中是经验CDF。（我不记得除此之外的细节。） ˚F Ñ1个ñ∑我= 1ñF^ñ（x ）→pF（x ）1n∑i=1nF^n(x)→pF(x)\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)F^ñF^n\hat{F}_n 确实不应该使用百分位引导程序方法吗？如果是这样，那么当不一定知道时（即，没有足够的信息可用于执行参数自举），有什么替代方案？FFF 更新资料由于需要澄清，因此这些MIT注释中的“经验引导程序”涉及以下过程：它们计算和其中是对和的完整样本估计值，得出的估计置信区间为。δ1个= （ θ^∗-θ^）α / 2δ1=(θ^∗−θ^)α/2\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}θ * θ θ θ [ θ - δ 2，θ - δ 1 ]δ2= （ θ^∗-θ^）1 - α / 2δ2=（θ^∗-θ^）1个-α/2\delta_2 = …

31 confidence-interval bootstrap

6

如果可信区间的先验值是平坦的，则95％的置信区间等于95％的可信区间吗？

我对贝叶斯统计非常陌生，这可能是一个愚蠢的问题。不过：考虑一个先验的可信间隔，该间隔指定了均匀分布。例如，从0到1，其中0到1表示效果的可能值的整个范围。在这种情况下，95％的可信区间等于95％的置信区间吗？

31 bayesian confidence-interval estimation prior credible-interval

2

50％的置信区间是否比95％的置信区间更可靠地估计？

我的问题来自于安德鲁·盖尔曼（Andrew Gelman）的博客文章中的这一评论，他在文章中主张使用50％的置信区间代替95％的置信区间，尽管并不是以更可靠的估计为依据：我更喜欢50％到95％的间隔，原因有3个：计算稳定性更直观的评估（50％的间隔应包含真实值的一半），从某种意义上说，最好是了解参数和预测值的位置，而不要尝试不切实际的接近确定性。评论者的想法似乎是，如果置信区间为95％，则置信区间的基础假设的问题将比置信区间为50％的影响更大。但是，他并没有真正解释原因。 [...]随着间隔的增加，总体上，您对模型的细节或假设变得更加敏感。例如，您永远不会相信自己已经正确识别了99.9995％的间隔。至少那是我的直觉。如果是正确的话，它认为应该比95％更好地估计50％。还是“更可靠”地估算，因为它对有关噪声的假设不太敏感？是真的吗为什么/为什么不呢？

30 confidence-interval assumptions robust

2

偏态分布的均值是否存在可靠的非参数置信区间？

极偏斜的分布（例如对数正态分布）不会导致准确的引导置信区间。这是一个示例，说明无论您在R中尝试哪种引导方法，左右尾部区域都离理想的0.025较远： require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

30 confidence-interval nonparametric mean bootstrap median

6

置信区间何时有用？

如果我正确理解，则参数的置信区间是通过一种方法构造的区间，该方法可得出包含指定比例样本的真实值的区间。因此，“置信度”是关于方法的，而不是我从特定样本计算的间隔。作为统计的用户，由于所有样本的空间都是假设的，因此我一直对此感到受骗。我只有一个样本，我想知道该样本告诉我有关参数的信息。这个判断错了吗？至少在某些情况下，是否存在查看置信区间的方法，这对统计用户有意义？ [这个问题源于第二个想法在math.se答案瞧不起置信区间后https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 ＃7572 ]

30 confidence-interval interpretation

6

二项式置信区间估计-为什么不对称？

我已经使用以下r代码来估计二项式比例的置信区间，因为我知道在设计着眼于人群疾病检测的接收器工作特性曲线设计时，它可以替代“功效计算”。 n为150，我们相信这种疾病在人群中的流行率为25％。我已经计算出75％的敏感性和90％的特异性的值（因为这似乎是人们所做的）。 binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95) binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95) 我还访问了该站点： http://statpages.org/confint.html 这是一个计算二项式置信区间的Java页面，并且给出相同的答案。无论如何，经过漫长的设置之后，我想问一下为什么置信区间不是对称的，例如灵敏度是 95 percent confidence interval: 0.5975876 0.8855583 sample estimate probability: 0.7631579 抱歉，如果这是一个愚蠢的问题，但我看起来似乎到处都暗示它们将是对称的，而我的一位同事似乎也认为它们也会如此。

30 confidence-interval binomial

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

使用等于假设的p值拒绝假设是否不属于置信区间？

在正式得出估计的置信区间的同时，我得出了一个公式，该公式与值的计算方式非常相似。ppp 因此，问题是：它们在形式上等效吗？即拒绝假设的临界值等于不属于具有临界值\ alpha的置信区间。α 0 αH0= 0H0=0H_0 = 0αα\alpha000αα\alpha

29 hypothesis-testing confidence-interval p-value

3

R：尽管数据集中没有NaN，随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]

我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN，Inf或NA。但是，当运行随机森林时，我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

置信区间和假设检验之间有什么区别？

我已经读过关于假设检验的争议，一些评论员建议不要使用假设检验。一些评论员建议应改用置信区间。置信区间和假设检验之间有什么区别？参考和示例的解释将是可理解的。

28 hypothesis-testing confidence-interval

2

如何构建中位数之间差异的95％置信区间？

我的问题是：平行组随机试验的主要结局分布偏右。我不想假设正常，而是使用基于法线的95％CI（即使用1.96 X SE）。我很乐意将集中趋势的度量表示为中位数，但是我的问题是，如何构建两组之间中位数差异的95％CI。首先想到的是引导程序（用替换进行重采样，确定两组的中位数，并从另一组中减去一个，重复1000次，并使用偏差校正的95％CI）。这是正确的方法吗？还有其他建议吗？

27 confidence-interval bootstrap median clinical-trials

2

使用置信区间时，我们是否应该应对多个比较调整？

假设我们有一个多重比较的场景，例如成对统计的事后推断，或者像多重回归，我们总共进行了mmm比较。还要假设，我们希望使用置信区间支持这些倍数的推理。 1.我们是否对配置项应用了多个比较调整？也就是说，正如多重比较强制的重新定义αα\alpha来无论是家庭明智的错误率（FWER）或假发现率（FDR），确实的含义信心（或信誉1，或不确定性，或预测或推断...选择您的间隔）是否会因多次比较而发生类似的变化？我意识到这里的否定答案将解决我剩下的问题。 2.是否存在从假设检验到区间估计的多个比较调整程序的直接转换？例如，将调整集中于改变CI-levelCI-level\text{CI-level}术语中的置信区间：CIθ=(θ^±t(1−CI-level)/2σ^θ)CIθ=(θ^±t(1−CI-level)/2σ^θ)\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})？ 3.我们将如何处理CI的升压或降压控制程序？从假设检验方法到推理的一些家庭式错误率调整是“静态的”，因为对每个单独的推断进行了完全相同的调整。例如，通过更改以下项的拒绝标准来进行Bonferroni调整：拒绝如果p≤α2p≤α2p\le \frac{\alpha}{2}至：拒绝如果p≤α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m}，但是Holm-Bonferroni的升压调整不是“静态”的，而是通过以下方式进行的：首先将ppp最小到最大排序，然后拒绝如果p≤1−(1−α2)1m+1−ip≤1−(1−α2)1m+1−ip\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}，（其中，iii索引的顺序ppp-值），直到我们无法拒绝无效假设，并且自动无法拒绝所有后续的无效假设。因为CI不会发生拒绝/拒绝失败（更正式的说法，请参见下面的参考文献），这是否意味着逐步过程不会转换（即包括所有FDR方法）？在此我要说明的是，我并不是在问如何将CI转换为假设检验（以下引用的“视觉假设检验”文献的代表提到了这个不重要的问题）。 4. 括号中我在1中提到的其他间隔是什么？ 1天哪，我当然希望我不会在这里使用这个词来惹恼那些甜美，甜美的贝叶斯风格。:) 参考文献 Afshartous，D.和Preston，R.（2010）。相依数据的置信区间：将具有统计意义的非重叠等同。计算统计与数据分析，54（10）：2296-2305。卡明，G。（2009）。肉眼推论：读取独立置信区间的重叠。医学统计学，28（2）：205-220。缅因州的佩顿，MH的Greenstone和北卡罗来纳州的Schenker（2003）。重叠置信区间或标准误差区间：就统计学意义而言，它们是什么意思？昆虫科学学报，3（34）：1-6。 Tryon，WW和Lewis，C.（2008）。建立统计等价性的推论置信区间方法，用于校正Tryon（2001）的折减系数。心理方法，13（3）：272–277。

26 confidence-interval multiple-comparisons inference

5

为什么这些陈述在逻辑上不符合95％CI的逻辑？

我一直在阅读Hoekstra等人在2014年发表的有关“对置信区间进行鲁棒性误解”的论文，该论文是从Wagenmakers网站上下载的。在倒数第二页上，出现以下图像。根据作者的说法，False是所有这些陈述的正确答案。我不太确定为什么这些陈述是错误的，据我所知，本文的其余部分并未试图解释这一点。我相信1-2和4是不正确的，因为当真实均值具有一个未知的确定值时，它们会断言真实均值的可能值。这是一个令人信服的区别吗？关于3，我理解一个人无意对原假设不正确的可能性做出断言，尽管我不确定原因。同样，6也不能成立，因为这意味着真正的平均值在各个实验之间都在变化。我完全不了解的那个是5。为什么那是错误的？如果我有一个过程在95％的时间内生成的CI包含真实均值，为什么我不说我有95％的置信度，即总体价值在0.1到0.4之间？是因为我们可能对刚刚获取的样本有一些特殊信息，使我们认为这很可能是不包含真实均值的5％之一？例如，置信区间中包括0.13，并且由于某些原因，在某些特定的研究范围内，0.13未被认为是合理的值，例如，因为该值将与先前的理论相抵触。无论如何，信心在这种情况下意味着什么？

26 hypothesis-testing confidence-interval

Questions tagged «confidence-interval»