Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
为什么在达到最佳样本量之前停止A / B测试是错误的?
我负责介绍我公司的A / B测试结果(在网站上运行)。我们进行了一个月的测试,然后定期检查p值,直到达到显着性为止(或者,如果长时间运行后未达到显着性,则放弃),我现在发现这是一种错误的做法。 我现在想停止这种做法,但是要这样做,我想了解为什么这是错误的。我知道效果大小,样本大小(N),α显着性标准(α)和统计功效,或选择或隐含的β(β)在数学上都是相关的。但是,在达到所需样本量之前停止测试会发生什么变化呢? 我在这里阅读了几篇文章(即this,this和this),他们告诉我,我的估计会有所偏差,并且我的Type 1错误的发生率急剧增加。但是那是怎么发生的呢?我正在寻找数学解释,这种解释可以清楚地显示出样本量对结果的影响。我想这与我上面提到的因素之间的关系有关,但是我无法找出确切的公式并自行解决。 例如,过早停止测试会增加类型1的错误率。好的。但为什么?如何增加类型1的错误率?我想念这里的直觉。 请帮忙。


3
为什么几个(如果不是全部)参数假设检验假设为随机抽样?
像Z,t和其他几种测试都假定数据基于随机采样。为什么? 假设我正在做实验研究,我在乎内部有效性而不是外部有效性。因此,如果我的样本可能有点偏见,那很好,因为我已经接受了不推断整个人群的假设的结论。并且分组仍将是随机的,即,为了方便起见,我将选择样本参与者,但我将它们随机分配给不同的组。 为什么我不能忽略这个假设?

5
在开始实验或无限期进行实验之前确定样本量?
几年前,我研究了统计学,却忘记了这一切,因此这些似乎比一般的问题更像是一般的概念性问题,但这是我的问题。 我在电子商务网站上以UX设计师的身份工作。我们有一个几年前建立的A / B测试框架,我对此表示怀疑。 我们做出所有决策所依据的指标称为转化,它基于访问该网站并最终购买商品的用户百分比。 因此,我们要测试将“购买”按钮的颜色从绿色更改为蓝色。 该控件就是我们已经拥有的控件,绿色按钮是我们知道平均转化率是多少。实验是将绿色按钮替换为蓝色按钮。 我们同意95%的显着性是我们满意的置信度,我们开启了实验,使其继续运行。 当用户访问网站时,在后台,他们有50/50的机会会被发送到对照版本(绿色按钮)与实验版本(蓝色按钮)。 经过7天的实验后,我发现转化率提高了10.2%,而样本量为3000(对照组为1500,实验为1500),统计学意义为99.2%。我认为很好。 实验继续进行,样本量增加,然后我发现转化率增加了9%,显着性为98.1%。好的,让实验运行更长的时间,现在实验仅显示出5%的提升,统计显着性仅为92%,框架告诉我在达到95%的显着性之前我还需要4600个样本? 那么实验在什么时候得出结论? 如果我想说一个临床试验过程,您需要事先就样本量达成共识,并完成实验,则无论何种度量标准都能将其提高10%,达到99%的显着性,然后就决定将该药物投放市场。但是,如果他们对4000人进行了实验,并且发现无论将哪种指标提高5%,只有92%的显着性,那么该药就不会被允许投放市场。 我们是否应该事先就样本量达成一致并在达到该样本量后立即停止并对结果满意(如果在关闭实验时的显着性为99%)?

2
如何严格证明选择的假阳性/假阴性错误率和潜在成本比率?
语境 一组社会科学家和统计学家(Benjamin等人,2017年)最近建议,用作确定“统计意义”的阈值的典型假阳性率( = .05)需要调整为更保守的阈值( = .005)。一群竞争激烈的社会科学家和统计学家(Lakens等,2018)做出了回应,反对使用这个-或任何其他-任意选择的阈值。以下是Lakens等人的报价。(第16页)有助于举例说明我的问题的主题:ααα\alphaαα\alpha 理想情况下,通过使用决策理论将成本和收益与效用函数进行比较来确定Alpha级别。与从难以获得的样本中收集数据相比,这种成本效益分析(因此也就是alpha水平)在分析现有的大型数据集时有所不同。科学是多种多样的,这取决于科学家来证明他们决定使用的Alpha水平。...研究应遵循严格的科学原理,而不是启发法和任意的门槛。 题 我想知道如何才能像Lakens等人那样以“受严格科学原理指导”的方式证明所选alpha的合理性。建议,在大多数社会科学背景下(即在某些情况下,人们需要更具体的素质(例如利润)来优化)? 随着Lakens等人的传播,我开始看到在线计算器在流通,以帮助研究人员做出这一决定。研究人员在使用它们时,需要指定假阳性和假阴性错误的“成本比”。然而,由于这个计算器在这里建议,确定这样的成本比可能涉及大量的定量猜测工作: 尽管有些错误成本很容易用货币来量化(直接成本),而其他错误成本却很难将零头的金额(间接成本)量化。...尽管难以量化,但您仍应努力给他们加一个数字。 例如,尽管Lakens等。建议研究难以达到的样本,作为在证明α时可能要考虑的一个因素,似乎人们仍在猜测该样本难以达到的程度,从而如何相应地调整alpha的选择。再举一个例子,对我而言,要量化发表假阳性的成本似乎是困难的,要看别人随后会投入多少时间/金钱来进行基于错误推论的研究。 如果确定此成本比率在很大程度上是主观猜测的问题,那么我想知道这些决定是否能够(再次,除了优化诸如利润之类的)“合理化”。就是说,以某种方式存在于关于采样,权衡,影响等的假设之外?以这种方式,在我看来,确定假阳性/假阴性错误的成本比似乎类似于选择贝叶斯推断中的先验-这个决定可能是主观的,会影响结果,因此引起争议- -尽管我不确定这是否是合理的比较。 摘要 为了使我的询问具体: 在大多数社会科学背景下,假阳性率/假阴性率及其成本比率是否能被“严格”证明是正确的? 如果是这样,可以遵循哪些通用原则来证明这些分析选择是合理的(可能是其中一个或两个示例在起作用) 如果不是,我在选择成本比时的潜在主观性(类似于贝叶斯优先选择)是否合理? 参考文献 本杰明(DJ),伯杰(J. 重新定义统计意义。取自psyarxiv.com/mky9j Lakens,D.,Adolfi,FG,Albers,CJ,Anvari,F.,Apps,MA,... Zwaan,RA(2018年1月15日)。证明你的阿尔法。取自psyarxiv.com/9s3y6

2
Kaggle比赛是不是偶然赢了?
Kaggle竞赛根据坚持下来的测试集确定最终排名。 保留的测试集是一个样本;它可能不代表正在建模的总体。由于每个提交都像一个假设,因此赢得竞争的算法可能完全有可能比其他方法更好地匹配测试集。换句话说,如果选择了不同的测试集并重复了比赛,排名会保持不变吗? 对于赞助公司而言,这并不重要(可能前20名提交者会改善他们的基准)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更糟糕的第一名的模型。但是,对于竞争参与者来说,Kaggle似乎最终是一种机会游戏-不需要偶然找到正确的解决方案,而是需要偶然找到与测试集匹配的解决方案! 是否可以改变比赛方式,以便所有无法在统计上区分的顶级球队获胜?或者,在这一组中,最简约或计算便宜的模型能否获胜?

1
使用进行假设检验,因为收敛速度更快?
假设我有是iid,并且我想做一个假设检验,为0。假设我有大n,并且可以使用中心极限定理。我还可以做一个测试为0,这等效于测试为0。此外,收敛到卡方,其中收敛到法线。因为具有更快的收敛速度,所以我不应该将其用于测试统计量,这样我将获得更快的收敛速度并且测试会更高效吗?X1,…,XnX1,…,XnX_1,\ldots,X_nμμ\muμ2μ2\mu^2μμ\mun(X¯2−0)n(X¯2−0)n(\bar{X}^2 - 0)n−−√(X¯−0)n(X¯−0)\sqrt{n}(\bar{X} - 0)X¯2X¯2\bar{X}^2 我知道这种逻辑是错误的,但是我已经思考了很长时间,无法弄清原因。

2
使用lm进行2样本比例测试
我一直在使用线性模型执行2样本比例测试,但是已经意识到这可能并不完全正确。看来,使用具有二项式族+身份链接的广义线性模型可以准确给出未汇集的2样本比例测试结果。但是,使用线性模型(或带有高斯族的glm)得出的结果略有不同。我认为这可能是由于R如何解决二项式和高斯族的glm,但是还有其他原因吗? ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) set.seed(12345) ## set up dataframe ------------------------- n_A <- 5000 n_B <- 5000 outcome <- rbinom( n = n_A + n_B, …

1
Logistic回归中的拟合优度检验;我们要测试哪个“合适”?
我指的是这个问题及其答案:如何比较通过Logistic回归开发的模型的(概率)预测能力?@Clark Chong发表,@ Frank Harrell回答/评论。并在Hosmer-Lemeshow测试和评论中质疑的自由度χ2χ2\chi^2。 我已经阅读了DW Hosmer,T. Hosmer,S. Le Cessie,S. Lemeshow的论文,“ Logistic回归模型的拟合优度检验比较”,《医学统计》,第1卷。16,965-980(1997)。 阅读后,我感到困惑,因为我提到的问题明确要求“(概率)预测能力”,我认为这与上述论文的拟合优度检验旨在: 如我们大多数人所知,逻辑回归假设解释变量和成功概率之间呈S形联系,S形的函数形式为 P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} 在不假装Hosmer-Lemeshow检验没有缺点的情况下,我认为我们必须区分(a)“(概率)预测能力 ”和(b)“ 拟合优度 ”的检验。 前者的目标是检验概率是否得到了很好的预测,而拟合优度检验则检验了上面的S形函数是否为“正确”函数。更正式地: “概率预测能力测试”的检验具有,表明模型很好地预测了成功概率;H0H0H_0 而对于拟合优度测试,(参见Hosmer等人)认为上述S形功能形式是正确的。Hosmer等。进行仿真,在仿真中他们发现有能力检测到两种与零值的偏差,即链接函数错误或分母中的指数不是线性的。H0H0H_0 显然,如果上述函数具有“正确”的函数形式(因此,如果测试得出结论,我们可以接受作为拟合优度检验),则预测的概率将很好,...H0H0H_0 第一句话 ...但是,接受的结论很微弱,如我们未能否定原假设时该怎么办?。H0H0H_0 第一个问题 我最重要的问题/评论是,如果拟合优度被拒绝,则测试的结论是功能形式不是“正确的”形式,但是,这暗示着概率是预测不好?H0H0H_0 第二个问题 此外,我想指出Hosmer等人的结论。al; (我从摘要中引用): ``当正确的模型具有二次项但仅包含线性项的模型已拟合时,对测试性能的检查表明,皮尔逊卡方,未加权平方和,Hosmer-Lemeshow十分位数风险,平滑的残差平方和和Stukel得分测试,当样本量为100时,具有超过50%的功效来检测线性的适度偏离,对于大小为500的样本,这些相同替代品的功效为90%以上当正确的模型具有二分和连续协变量之间的相互作用,但只有连续协变量模型适合时,所有检验均无功效。对于大小为100的样本,检测到错误指定链接的能力很差。对于大小为500的样本,Stukel' s得分测试的功效最佳,但检测不对称链接功能的结果仅超过50%。未加权平方和检验用于检测指定不正确的链接函数的能力比Stukel的分数检验要小'' 我可以由此得出结论,哪个测试具有更大的功效,或者说Hosmer–Lemeshow的功效更低(检测这些特定异常)? 第二句话 Hosmer等人的论文。等 我在上文中提到过,计算(模拟)检测特定异常的功率(仅在指定情况下才能计算功率)。我认为这并不意味着可以将这些结果推广到“所有可能的替代方案 ”?H1H1H_1H1H1H_1


5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
为什么这种分配是统一的?
我们正在调查贝叶斯统计检验,并且遇到一种奇怪的现象(对我来说至少是这样)。 考虑以下情况:我们有兴趣测量哪个人口A或B具有较高的转化率。对于健全性检查,我们将设置,也就是说,两组转换的可能性相等。我们使用二项式模型生成人工数据,例如pA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, p_A) 然后,我们尝试使用贝叶斯beta二项式模型估计以便获得每种转换率的后验,例如pA,pBpA,pBp_A, p_BPA∼Beta(1+nA,N−nA+1)PA∼Beta(1+nA,N−nA+1)P_A \sim \text{Beta}(1 + n_A, N - n_A +1 ) 我们的测试统计量是通过蒙特卡洛通过计算来计算的。S=P(PA>PB|N,nA,nB)S=P(PA>PB|N,nA,nB)S = P(P_A > P_B\; |\; N, n_A, n_B) 令我惊讶的是,如果,则。我的想法是,随着样本大小增加,它将以0.5为中心,甚至收敛到0.5 。 pA=pBpA=pBp_A = p_BS∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}NNN 我的问题是,为什么 当时?p 甲 = p 乙S∼Uniform(0,1)S∼Uniform(0,1)S \sim \text{Uniform(0,1)}pA=pBpA=pBp_A = p_B 这是一些Python代码来演示: %pylab from scipy.stats import beta …

1
如何执行自举测试以比较两个样本的均值?
我有两个严重偏斜的样本,正在尝试使用自举比较t统计量的均值。 正确的做法是什么? 我正在使用的过程 当我知道原始数据或观察到的数据不是正态分布时,我会担心在最后一步中使用标准误差的适当性。 这是我的步骤: 引导程序-随机抽样替换(N = 1000) 为每个引导程序计算t统计量以创建t分布: T(b)=(X¯¯¯¯b1−X¯¯¯¯b2)−(X¯¯¯¯1−X¯¯¯¯2)σ2xb1/n+σ2xb2/n−−−−−−−−−−−−−√T(b)=(X¯b1−X¯b2)−(X¯1−X¯2)σxb12/n+σxb22/n T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }} 通过获取t分布的和百分位数来估计t置信区间α/2α/2\alpha/21−α/21−α/21-\alpha/2 通过以下方式获取置信区间: CIL=(X¯¯¯¯1−X¯¯¯¯2)−T_CIL.SEoriginalCIL=(X¯1−X¯2)−T_CIL.SEoriginal CI_L = (\overline{X}_1-\overline{X}_2) - T\_{CI_L}.SE_{original} CIU=(X¯¯¯¯1−X¯¯¯¯2)+T_CIU.SEoriginalCIU=(X¯1−X¯2)+T_CIU.SEoriginal CI_U = (\overline{X}_1-\overline{X}_2) + T\_{CI_U}.SE_{original} ,其中 SE=σ2X1/n+σ2X2/n−−−−−−−−−−−−√SE=σX12/n+σX22/n SE = \sqrt{ \sigma^2_{X1}/n + \sigma^2_{X2}/n } 查看置信区间落在哪里,以确定均值是否存在显着差异(即非零) 我也查看了Wilcoxon秩和,但由于分布严重偏斜(例如,第75个== 95%),因此给出的结果并不十分合理。因此,我想进一步探讨自举t检验。 所以我的问题是: 这是合适的方法吗? 当我知道观测到的数据严重偏斜时,使用SE合适吗? 可能重复:首选哪种方法,引导测试或非参数基于等级的测试?

1
如果检验统计量的分布是双峰的,那么p值意味着什么?
假设零假设为真,则将P值定义为至少获得与所观察到的极端一样的检验统计量的概率。换一种说法, P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) 但是,如果检验统计量在分布上是双峰的,该怎么办?在这种情况下,p值意味着什么吗?例如,我将在R中模拟一些双峰数据: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) 并假设我们观察到的测试统计值为60。在这里,从图片中我们知道该值是不太可能的。因此,理想情况下,我希望使用一个统计过程(例如p值)来揭示这一点。但是,如果我们按照定义的p值进行计算,则会得到相当高的p值 observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 如果我不知道分布,我将得出结论,我观察到的仅仅是偶然的机会。但是我们知道这是不对的。 我想我要问的问题是:为什么在计算p值时,为什么要计算“至少与所观察值一样极端”的值的概率?如果遇到上面模拟的情况,替代解决方案是什么?

1
为什么高斯线性模型中的F检验功能最强大?
对于高斯线性模型,其中μ,假定为位于某些向量空间W ^和ģ对标准正态分布ř Ñ,所述的统计˚F -test为ħ 0:{ μ ∈ ù }其中ü ⊂ w ^是一个向量空间,是的增加一到一个功能偏差统计: ˚F = φ ( 2 日志SUP μ ∈ w ^ÿ= μ + σGY=μ+σGY=\mu+\sigma Gμμ\muw ^WWGGG[RñRn\mathbb{R}^nFFFH0:{ μ ∈ û}H0:{μ∈U}H_0\colon\{\mu \in U\}ü⊂ w ^U⊂WU \subset W 我们怎么知道这个统计数据为H0提供了最有力的检验(也许在丢弃了异常情况之后)?因为这个定理断言,似然比测试是最有力的对点的假设这并不奈曼皮尔森定理干ħ0:{μ=μ0,σ=σ0}和ħ1:{F= ϕ ( 2 对数SUPμ ∈ w ^,σ> 0L (μ ,σ| ÿ)SUPμ ∈ û,σ> …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.