Questions tagged «p-value»

在常识假设检验中, p-值是在假设无效的假设为真的情况下,结果大于或大于观察结果的概率。

2
如何严格证明选择的假阳性/假阴性错误率和潜在成本比率?
语境 一组社会科学家和统计学家(Benjamin等人,2017年)最近建议,用作确定“统计意义”的阈值的典型假阳性率( = .05)需要调整为更保守的阈值( = .005)。一群竞争激烈的社会科学家和统计学家(Lakens等,2018)做出了回应,反对使用这个-或任何其他-任意选择的阈值。以下是Lakens等人的报价。(第16页)有助于举例说明我的问题的主题:ααα\alphaαα\alpha 理想情况下,通过使用决策理论将成本和收益与效用函数进行比较来确定Alpha级别。与从难以获得的样本中收集数据相比,这种成本效益分析(因此也就是alpha水平)在分析现有的大型数据集时有所不同。科学是多种多样的,这取决于科学家来证明他们决定使用的Alpha水平。...研究应遵循严格的科学原理,而不是启发法和任意的门槛。 题 我想知道如何才能像Lakens等人那样以“受严格科学原理指导”的方式证明所选alpha的合理性。建议,在大多数社会科学背景下(即在某些情况下,人们需要更具体的素质(例如利润)来优化)? 随着Lakens等人的传播,我开始看到在线计算器在流通,以帮助研究人员做出这一决定。研究人员在使用它们时,需要指定假阳性和假阴性错误的“成本比”。然而,由于这个计算器在这里建议,确定这样的成本比可能涉及大量的定量猜测工作: 尽管有些错误成本很容易用货币来量化(直接成本),而其他错误成本却很难将零头的金额(间接成本)量化。...尽管难以量化,但您仍应努力给他们加一个数字。 例如,尽管Lakens等。建议研究难以达到的样本,作为在证明α时可能要考虑的一个因素,似乎人们仍在猜测该样本难以达到的程度,从而如何相应地调整alpha的选择。再举一个例子,对我而言,要量化发表假阳性的成本似乎是困难的,要看别人随后会投入多少时间/金钱来进行基于错误推论的研究。 如果确定此成本比率在很大程度上是主观猜测的问题,那么我想知道这些决定是否能够(再次,除了优化诸如利润之类的)“合理化”。就是说,以某种方式存在于关于采样,权衡,影响等的假设之外?以这种方式,在我看来,确定假阳性/假阴性错误的成本比似乎类似于选择贝叶斯推断中的先验-这个决定可能是主观的,会影响结果,因此引起争议- -尽管我不确定这是否是合理的比较。 摘要 为了使我的询问具体: 在大多数社会科学背景下,假阳性率/假阴性率及其成本比率是否能被“严格”证明是正确的? 如果是这样,可以遵循哪些通用原则来证明这些分析选择是合理的(可能是其中一个或两个示例在起作用) 如果不是,我在选择成本比时的潜在主观性(类似于贝叶斯优先选择)是否合理? 参考文献 本杰明(DJ),伯杰(J. 重新定义统计意义。取自psyarxiv.com/mky9j Lakens,D.,Adolfi,FG,Albers,CJ,Anvari,F.,Apps,MA,... Zwaan,RA(2018年1月15日)。证明你的阿尔法。取自psyarxiv.com/9s3y6

2
根据p值选择特征是否错误?
关于如何选择功能,有几篇文章。一种方法描述了基于t统计量的特征重要性。在varImp(model)应用于具有标准化特征的线性模型的R中,使用每个模型参数的t统计量的绝对值。因此,基本上,我们基于特征的t统计量来选择特征,这意味着系数的精确度。但是系数的精确度是否可以告诉我有关特征的预测能力的信息? 我的特征的t统计量较低,但仍会提高模型的准确性吗?如果是,那么什么时候要基于t统计信息排除变量?还是只是作为检查非重要变量的预测能力的起点?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
如果检验统计量的分布是双峰的,那么p值意味着什么?
假设零假设为真,则将P值定义为至少获得与所观察到的极端一样的检验统计量的概率。换一种说法, P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) 但是,如果检验统计量在分布上是双峰的,该怎么办?在这种情况下,p值意味着什么吗?例如,我将在R中模拟一些双峰数据: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) 并假设我们观察到的测试统计值为60。在这里,从图片中我们知道该值是不太可能的。因此,理想情况下,我希望使用一个统计过程(例如p值)来揭示这一点。但是,如果我们按照定义的p值进行计算,则会得到相当高的p值 observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 如果我不知道分布,我将得出结论,我观察到的仅仅是偶然的机会。但是我们知道这是不对的。 我想我要问的问题是:为什么在计算p值时,为什么要计算“至少与所观察值一样极端”的值的概率?如果遇到上面模拟的情况,替代解决方案是什么?

2
如何在多个插补数据集中合并自举的p值?
我担心的问题是,我想从乘归(MI)数据中引导p值来估计,但是我不清楚如何在MI集合中组合p值。θθ\theta 对于MI数据集,获得估计总方差的标准方法使用Rubin规则。有关合并MI数据集的评论,请参见此处。总方差的平方根用作的标准误差估计。但是,对于某些估计量,总方差没有已知的闭合形式,或者采样分布不正常。然后,统计量可能不是t分布的,甚至不是渐近的。θ / 小号ë (θ )θθ\thetaθ / 塞e (θ )θ/se(θ){\theta}/{se(\theta)} 因此,在完整数据的情况下,即使采样分布不是正态且其闭合形式未知,一种替代方法是引导统计信息以找到方差,p值和置信区间。在MI的情况下,有两个选择: 跨MI数据集合并自举差异 跨MI数据集合并p值或置信范围 然后,第一种选择将再次使用鲁宾规则。但是,如果具有非正态采样分布,则我认为这是有问题的。在这种情况下(或更一般而言,在所有情况下),可以直接使用自举p值。但是,在MI的情况下,这将导致多个p值或置信区间,需要将其跨MI数据集合并。θθ\theta 所以我的问题是:如何在多个估算数据集之间合并多个自举p值(或置信区间)? 我欢迎任何有关如何进行的建议,谢谢。

4
在R中如何计算ROC下面积的p值
我努力寻找一种方法来计算接收器操作员特征(ROC)下面积的p值。我有一个连续变量和诊断测试结果。我想看看AUROC是否具有统计意义。 我发现许多处理ROC曲线的软件包:pROC,ROCR,caTools,验证,Epi。但是,即使花了很多时间阅读文档和测试,我仍然找不到方法。我想我只是想念它。
12 r  p-value  roc 

1
对lmer和p值的困惑:memisc包中的p值与MCMC的p值相比如何?
我的印象是,该功能下lmer()的lme4包没有产生p值(见lmer,p值和所有)。 我一直在按以下问题使用MCMC生成的p值:混合模型中的显着效果,lme4以及以下问题:在的包中的输出中找不到p值lmer()lm4R。 最近,我尝试了一个名为memisc的程序包,并将其getSummary.mer()模型的固定效果保存到一个csv文件中。就像是魔术一样,p出现了一个名为的列,该列与我的MCMC p值非常紧密地匹配(并且不会遭受使用带来的处理时间pvals.fnc())。 我试探了其中的代码,getSummary.mer并发现了生成p值的行: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 这是否意味着可以直接从lmer输出生成p值,而不是运行pvals.fnc?我意识到这无疑将引发“ p值拜物教”辩论,但我很想知道。我没有听说过memisc,当涉及到前面提到的lmer。 更加简洁:与使用MCMC p值生成的值相比,使用MCMC p值有什么好处(如果有)getSummary.mer()?

2
可以仅根据相关系数和样本数量来计算Pearson相关检验的p值吗?
背景:我读过一篇文章,作者从878样本中报告了Pearson相关系数0.754。相关检验的p值显着为“两颗星”(即p <0.01)。但是,我认为在如此大的样本量下,相应的p值应小于0.001(即三颗星)。 可以仅根据皮尔逊相关系数和样本量来计算该检验的p值吗? 如果是,该如何在R中完成?

2
调整p值以进行自适应顺序分析(用于卡方检验)?
我想知道哪些统计文献与以下问题有关,甚至可能有关于如何解决该问题的想法。 想象以下问题: 对于某些疾病,我们有4种可能的治疗方法。为了检查哪种治疗更好,我们进行了一次特殊的试验。在试验中,我们从没有受试者开始,然后一个接一个地将更多受试者输入试验。每个患者随机分配到4种可能的治疗方法之一。治疗的最终结果是“健康”或“仍然生病”,我们可以立即知道该结果。这意味着,在任何给定的点上,我们都可以创建一个2 x 4的列联表,说明我们有多少受试者属于哪种治疗/最终结果。 在任何时候,我们都可以检查列联表(例如,使用卡方检验),以查看这4种可能的治疗方法之间在统计学上是否存在不同的治疗方法。如果其中一个比较好,那么其余所有-我们将停止试验并选择它作为“优胜者”。如果某个试验被证明比其他三个试验都更糟,我们将把他从试验中删除,并停止提供给将来的患者。 但是,这里的问题是我如何针对可以在任何给定点执行测试,测试之间存在相关性以及过程的自适应性质操纵过程的事实来调整p值。例如,如果发现某些治疗方法“不好”)?

2
阳性和阴性预测值的统计检验
我读了一篇论文,看到一张桌子,上面有PPV(正预测值)和NPV(负预测值)之间的比较。他们为他们做了某种统计检验,这是表格的示意图: PPV NPV p-value 65.9 100 < 0.00001 ... 每行都引用一个特定的列联表。 他们做了什么样的假设检验?谢谢!


1
Fisher的精确检验给出了非均匀的p值
我正在尝试在模拟的遗传问题中应用费舍尔的精确检验,但是p值似乎偏向右侧。作为一名生物学家,我想我只是在漏掉每个统计学家显而易见的东西,因此,我将非常感谢您的帮助。 我的设置是这样的:(设置1,边际不固定) 在R中随机生成两个0和1的样本。每个样本n = 500,采样0和1的概率相等。然后,我将每个样本中0/1的比例与Fisher的精确测试进行比较(只是fisher.test;还尝试了具有类似结果的其他软件)。重复采样和测试3万次。产生的p值的分布如下: 所有p值的平均值约为0.55,在0.0577处为第5个百分点。即使分布在右侧看起来也不连续。 我一直在阅读所有内容,但我没有发现任何迹象表明这种行为是正常的-另一方面,这只是模拟数据,因此我看不到任何偏见的来源。我错过了任何调整吗?样本量太小?或者也许它不应该是均匀分布的,并且p值的解释不同? 还是我应该重复一百万次,找到0.05分位数,并在将其应用于实际数据时将其用作显着性临界值? 谢谢! 更新: Michael M建议固定边际值0和1。现在,p值给出了更好的分布-不幸的是,它不是统一的,也不是我认识的任何其他形状: 添加实际的R代码:(设置2,固定的边距) samples=c(rep(1,500),rep(2,500)) alleles=c(rep(0,500),rep(1,500)) p=NULL for(i in 1:30000){ alleles=sample(alleles) p[i]=fisher.test(samples,alleles)$p.value } hist(p,breaks=50,col="grey",xlab="p-values",main="") 最终编辑: 正如胡布在评论中指出的那样,由于分箱,这些区域看上去只是扭曲了。我将附加设置1(免费边距)和设置2(固定边距)的QQ图。在下面的Glen模拟中可以看到类似的图,并且所有这些结果实际上似乎相当统一。谢谢您的帮助!

2
多元线性回归中对p值的理解
关于多元线性回归分析的p值,Minitab网站的介绍如下所示。 每个项的p值检验零假设,即该系数等于零(无影响)。低p值(<0.05)表示您可以拒绝原假设。换句话说,具有低p值的预测变量可能是对模型有意义的补充,因为预测变量值的变化与响应变量的变化有关。 例如,我的合成MLR模型为 。输出结果如下所示。然后,可以使用该公式计算。ÿ= 0.46753 X1个− 0.2668 X2+ 1.6193 X3+ 4.5424 X4+ 14.48ÿ=0.46753X1个-0.2668X2+1.6193X3+4.5424X4+14.48 y=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+4.5424{{X}_{4}}+14.48 ÿÿy Estimate SE tStat pValue ________ ______ _________ _________ (Intercept) 14.48 5.0127 2.8886 0.0097836 x1 0.46753 1.2824 0.36458 0.71967 x2 -0.2668 3.3352 -0.079995 0.93712 x3 1.6193 9.0581 0.17877 0.86011 x4 4.5424 2.8565 1.5902 0.1292 根据上面的介绍,零假设是系数等于0。我的理解是,系数(例如的系数)将设置为0,而另一个y将被计算为。然后对和进行配对t检验,但是该t检验的p值为6.9e-12,不等于0.1292(系数的p值。X4X4X_{4}ÿ2= 0.46753 …

1
置换检验的置信区间和P值不确定性
我正在学习随机测试。我想到两个问题: 是的,通过随机化测试(我认为与置换测试相同)来计算p值很容易而且很直观。但是,如何像普通参数测试一样生成95%的置信区间? 当我阅读华盛顿大学有关置换测试的文档时,第13页上有一句话说: 对于1000个排列....,p = 0.05附近的不确定度约为 。±1%±1%\pm 1\% 我不知道我们如何得到这种不确定性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.