Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。

2
统计上真实网络/图形中的所有边缘偶然发​​生的可能性是什么意思?
我一直在使用本文概述的骨干网提取方法:http : //www.pnas.org/content/106/16/6483.abstract 基本上,作者提出了一种基于统计的方法,该方法为图形中的每个边产生概率,该边可能只是偶然发生。我使用的典型统计显着性临界值为0.05。 我一直在将这种方法应用于多个现实世界的网络,有趣的是,某些网络最终没有任何重要的优势。我试图了解这对网络意味着什么。我将方法应用于网络并且没有出现任何明显边缘的唯一一次是当我将方法应用于生成的随机网络时,这正是我们所期望的。 作为一个现实世界网络的示例,您可能已经看到《经济学人》上最近的网络可视化,显示了过去25年美国参议院的两极分化:http://www.economist.com/news/united-states/21591190 -united态阿米巴原虫。我将骨干网提取方法应用于这些网络,并且没有出现明显的边缘。即使原始边缘显然显示出优先的附着和聚类,这仅仅是偶然吗?参议院投票网络基本上是随机的吗?


5
置信区间和概率-此语句中的错误在哪里?
如果有人发表如下声明: “总体而言,与不接触烟的非吸烟者相比,接触环境烟的非吸烟者患冠心病的相对风险为1.25(95%置信区间为1.17至1.32)。” 整个人口的相对风险是多少?有多少东西与冠心病有关?在可以测试的大量事物中,实际上很少与冠心病有关,因此,任意选择的任何特定事物与之相连的机会都将大大减少。因此,我们可以说该人群的相对风险为1。但是所引用的间隔不包含值1。因此,或者两者之间确实存在联系,而这两者的可能性正在逐渐减小,或者这是其中之一。不包含参数的间隔的5%。由于后者比前者更有可能是我们应该假设的。因此,适当的结论是,该数据集几乎可以肯定是该人群的非典型数据, 当然,如果有某种依据可以假定超过5%的疾病与冠心病有关,那么统计中可能会有一些证据支持环境烟雾就是其中之一的说法。常识表明这不太可能。 他们的推理有什么错误(因为所有卫生组织都同意,有大量有关二手烟破坏作用的文献)?是因为他们的前提是“在可以测试的大量事物中,实际上很少与冠心病有关”?这句话对于任何随机选择的因素(例如,一个人拥有几只患有冠状动脉疾病的狗)可能都是正确的,但二手烟和冠心病的先验概率要比“任何随机因素”高得多。 这是正确的推理吗?还是还有别的东西?

2
重要的预测变量在多元逻辑回归中变得不重要
当我在两个单独的(单变量)逻辑回归模型中分析变量时,得到以下信息: Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001 Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029 但是,当我将它们输入到单个多元逻辑回归模型中时,我得到: Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171 Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, …


4
一项研究超负荷意味着什么?
一项研究超负荷意味着什么? 我的印象是,这意味着您的样本量太大,以至于您有能力检测微小的效应量。这些影响的大小可能很小,以至于它们比变量之间的因果关系(不一定是直接因果关系)更可能是由采样过程中的轻微偏差引起的。 这是正确的直觉吗?如果是这样,我不认为有什么大不了的,只要以这种方式解释结果,然后您手动检查并查看估计的效果大小是否足够大以至于“有意义”。 我想念什么吗?关于在这种情况下该怎么做,有更好的建议吗?



1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
平均相关系数的意义
免责声明:如果您发现这个问题与另一个问题过于相似,我很高兴将其合并。但是,我在其他任何地方都找不到满意的答案(并且还没有“声誉”来发表评论或投票),所以我认为最好自己问一个新问题。 我的问题是这个。对于12个人类受试者中的每一个,我已经计算出自变量X的6个水平与因变量Y的相应观察值之间的相关系数(斯皮尔曼Rho)。(注意:受试者之间X的水平不相等。)零假设是,在一般人群中,这种相关性等于零。我用两种方法检验了这个假设: 对我的12个受试者获得的相关系数进行一次样本t检验。 通过将我的X水平和Y观测值居中,使得每个参与者的均值(X)= 0和均值(Y)= 0,然后计算汇总数据之间的相关性(72个X水平和72个Y观测值) 。 现在,从阅读有关使用相关系数(在这里和其他地方)的知识开始,我开始怀疑第一种方法是否有效。特别是,我看到以下方程式在几个地方突然出现,(显然)表示为平均相关系数的t检验: t=rSEr=n−2−−−−−√1−r2−−−−−√Ť=[R小号Ë[R=ñ-21个-[R2t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}} 其中,是平均相关系数(假设我们首先使用每个对象系数的Fisher变换获得了该系数),是观察数。直觉上,这对我来说似乎是错误的,因为它不包含任何受试者间变异性的度量。换句话说,如果我具有3个相关系数,则无论它们是[0.1、0.5、0.9]还是[0.45 0.5 0.55]还是任何均值相同(且)的值,我都会得到相同的t统计量n n = 3r[Rrnñnn=3ñ=3n=3 因此,我怀疑上面的方程式在检验相关系数平均值的显着性时实际上不适用,而在基于2个变量的观察值检验单个相关系数的显着性时实际上并不适用。nñn 在座的任何人都可以确认这种直觉或解释为什么错了吗?另外,如果此公式不适用于我的情况,是否有人知道正确的方法?也许我自己的测试编号2已经有效?非常感谢您的任何帮助(包括指向我可能遗漏或误解的先前答案的指针)。

1
自举重要性测试的两种方法
使用引导程序,我使用两种方法计算重要性测试的p值: 在原假设下重新采样并计算结果至少与原始数据得出的结果一样极端 在替代假设下进行重采样,并计算结果与原始结果的距离至少与与原假设对应的值一样远 我相信第一种方法完全正确,因为它遵循ap值的定义。我对第二个不太确定,但是它通常会给出非常相似的结果,并让我想起Wald测试。 我对吗?两种方法都正确吗?它们是否相同(对于大样本)? 两种方法的示例(在DWin的问题和Erik的回答后进行编辑): 示例1.让我们构造一个类似于两个样本T检验的自举测试。方法1将从一个样本中重新采样(通过合并原始两个样本获得)。方法2将分别从两个样本中重新采样。 示例2.让我们构造一个x₁…xₐ和y₁…yₐ之间的相关性的自举测试。方法1将假定没有相关性,并重新采样允许(xₑ,yₔ)对,其中e≠ə。方法2将编译原始(x,y)对的引导程序样本。 示例3.让我们构造一个引导测试来检查硬币是否公平。方法1将创建随机样本,设置Pr(head)= Pr(tail)= 1/2。方法2将重新采样实验头/尾值的样本,并将比例与½进行比较。

1
R中的Fisher检验
假设我们有以下数据集: Men Women Dieting 10 30 Non-dieting 5 60 如果我在R中运行Fisher精确测试,那么alternative = greater(或更少)意味着什么?例如: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") 我得到的p-value = 0.01588和odds ratio = 3.943534。另外,当我像这样翻转列联表的行时: mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") 然后我得到p-value = 0.9967和odds ratio = 0.2535796。但是,当我在没有备用参数(即fisher.test(mat))的情况下运行两个列联表时,我得到了p-value = 0.02063。 你能告诉我原因吗? 此外,在上述情况下,原假设和替代假设是什么? 我可以在像这样的列联表上运行fisher测试: mat = matrix(c(5000,10000,69999,39999), 2, 2) PS:我不是统计学家。我正在尝试学习统计信息,以便您的帮助(用简单的英语回答)将受到高度赞赏。

3
计算约束(非负)最小二乘法中的p值
我一直在使用Matlab来执行无约束的最小二乘(普通最小二乘),它会自动输出系数,检验统计量和p值。 我的问题是,在执行约束最小二乘法(严格为非负系数)时,它仅输出系数,而无检验统计量,p值。 可以计算这些值以确保重要性吗?为何不能直接在软件(或与此相关的任何其他软件)上使用它?

2
测试套索逻辑回归中的系数显着性
[ 这里提出了类似的问题,但没有答案] 我已经使用L1正则化拟合了逻辑回归模型(套索逻辑回归),我想测试拟合系数的显着性并获得其p值。我知道Wald的检验(例如)是在不进行正则化的情况下测试单个系数在完全回归中的显着性的一种选择,但是对于Lasso,我认为会出现更多的问题,这些问题不允许使用常规的Wald公式。例如,检验所需的方差估计不遵循通常的表达式。套索纸原件 http://statweb.stanford.edu/~tibs/lasso/lasso.pdf 建议使用基于引导程序的程序来估计系数方差,(再次,我认为)测试可能需要此方差(第2.5节,第272页的最后一段和273的开头): 一种方法是通过引导程序:要么可以固定要么可以针对每个引导程序样本对进行优化。固定类似于选择(特征的)最佳子集,然后对该子集使用最小二乘标准误差ttttttttt 我的理解是:反复将Lasso回归拟合到整个数据集,直到找到正则化参数的最佳值(这不是引导程序的一部分),然后仅使用由Lasso选择的特征将OLS回归拟合到子样本数据并应用通常的公式来计算每个回归的方差。(然后,我该如何处理每个系数的所有这些方差以获得每个系数的最终方差估计?) 此外,将常用的显着性检验(例如Wald检验利用估计的beta和方差)与系数的Lasso估计和自举估计方差一起使用是否正确?我可以肯定它不是,但是任何帮助(使用其他测试,使用更直接的方法,无论如何...)都非常受欢迎。 根据这里的答案,我怀疑无法得出推论和p值。就我而言,p值是一个外部要求(尽管我选择使用L1正则化)。 非常感谢 编辑 如果我仅使用上一次套索逻辑回归所选择的变量来拟合OLS逻辑回归怎么办?显然(请参阅此处), 进行交叉验证后,无需再次运行模型(您只需从cv.glmnet的输出中获取系数),实际上,如果您在不惩罚的情况下拟合新的逻辑回归模型,那么您将无法使用套索 但是,如果我这样做的唯一目的是能够在不使变量数量减少的情况下计算p值呢?这是一个很肮脏的方法吗?:-)

2
比较R中两个多项式回归之间差异的统计显着性
因此,首先,我在这个论坛上进行了一些研究,我知道 已经提出了非常相似的问题,但是通常没有得到正确答案,或者有时答案不够详尽,我无法理解。所以这一次我的问题是:我有两组数据,每组数据都像这样进行多项式回归: Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) 多项式回归图为: 系数为: > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 现在,我想知道,是否有一种方法可以使用R函数进行检验,从而知道两个天数的相关区间为[ 1100]。 根据我的理解,我无法直接应用方差分析测试,因为这些值来自两组不同的数据或AIC(用于比较模型/真实数据)。 我试图按照@Roland在相关问题中给出的说明进行操作,但在查看结果时可能会误解了一些内容: 这是我所做的: 我将两个数据集合并为一个。 f是@Roland谈到的可变因素。我将第一组的数字设置为1,将另一组的数字设置为0。 y<-(mydata2[,c(2)]) x<-(mydata2[,c(1)]) f<-(mydata2[,c(3)]) plot(x,y, xlim=c(1,nrow(mydata2)),type='p') fit3ANOVA <- lm( y~(poly(x,2)) ) fit3ANOVACN <- lm( y~f*(poly(x,2)) ) 我的数据现在看起来像这样: 红色的fit3ANOVA仍在工作,但我对蓝色的问题fit3ANOVACN有疑问,该模型的结果很奇怪。我不知道拟合模型是否正确,我不明白@Roland的确切含义。 考虑@DeltaIV解决方案,我想在那种情况下: 即使模型重叠,它们的模型也存在显着差异。我可以这样假设吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.