Questions tagged «chi-squared»

测试(通常是分布,独立性或拟合优度)或与此测试相关的分布族。

1
为什么方差的采样分布是卡方分布?
该声明 样本方差的样本分布是自由度等于的卡方分布,其中是样本大小(假设感兴趣的随机变量是正态分布的)。nn−1n−1n-1nnn 资源 我的直觉 这对我来说有点直觉,1)因为卡方检验看起来像是平方和; 2)卡方分布只是正态分布的平方和。但是,我对此仍然不太了解。 题 这句话是真的吗?为什么?

2
非中心卡方随机变量之和
我需要找到随机变量的分布 Y=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2 ,其中Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i)和所有XiXiX_i s为独立的。我知道有可能首先找到XiXiX_i s 的所有矩生成函数的乘积,然后变换回以获得YYY的分布。但是,我想知道Y是否有通用形式YYY 类似于高斯案例:我们知道独立高斯的和仍然是高斯,因此我们只需要知道求和的平均值和求和的方差即可。 如何对所有?这种情况是否可以解决?σ2i=σ2σi2=σ2\sigma^2_i=\sigma^2

3
t平方的总和是多少?
对于中等大小的(例如小于100),让从具有自由度的Student t分布中得出。定义 是否几乎以具有自由度的卡方分布?平方随机变量的总和是否有类似中心极限定理的东西? Ñ Ñ Ť = Σ 1 ≤ 我≤ ķ吨2 我 Ť ķŤ一世tit_iñnnñnnŤ= ∑1 ≤ 我≤ ķŤ2一世T=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2ŤTTķkk

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
我如何找到统计表中未给出的值?
人们通常使用程序来获取p值,但有时出于某种原因(可能出于某种原因)可能需要从一组表中获取临界值。 给定具有有限数量的显着性水平和有限数量的自由度的统计表,我如何在其他显着性水平或自由度下获得近似临界值(例如使用,卡方或表) ?tŤtFFF 也就是说,如何在表中的值之间找到“值”?

4
使用卡方距离比较两个直方图
我想比较两张面孔的图像。我计算了他们的LBP直方图。因此,现在我需要比较这两个直方图,并获得可以说明这些直方图相等(0-100%)的信息。 解决此任务的方法有很多,但是LBP方法的作者强调(带有局部二进制模式的面部描述:应用于面部识别。2004年),卡方距离比直方图交点和对数似然统计更好。 作者还显示了卡方距离的公式: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 其中是多个bin,是第一个bin 的值,是第二个bin的值。X 我ÿ 我nnnxixix_iyiyiy_i 在一些研究中(例如二次方卡尺直方图距离族),我看到卡方距离的公式为: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} 在http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm中,我看到卡方距离的公式为: ∑i=1n(xi−yi)2yi∑i=1n(xi−yi)2yi \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {y_i} 我坚持下去。我有几个问题: 我应该使用什么表情? 我应该如何解释差异的结果?我知道等于0的差意味着两个直方图都相等,但是如何知道两个直方图完全不同?我需要使用卡方表吗?还是我需要使用阈值?基本上,我想将差异映射到百分比。 为什么这三个表达式不同?

2
基于数据的bin边界对卡方拟合优度的影响?
撇开这种情况下卡方功率低的明显问题,想象通过对数据进行装箱,对未指定参数的某些密度进行卡方检验。 具体来说,假设平均值未知的指数分布和样本量为100。 为了获得每个bin合理数量的预期观察值,需要考虑一些数据(例如,如果我们选择将6个bin置于均值以下,将4个bin置于均值之下,则仍将使用基于数据的bin边界) 。 但是,这种基于查看数据的垃圾箱的使用可能会影响零值下测试统计量的分布。 我已经看到了很多关于以下事实的讨论:- 如果通过合并数据以最大似然来估计参数-每个估计参数会损失1 df(这个问题可以追溯到Fisher与Karl Pearson的问题)-但是我不记得了阅读有关根据数据本身查找bin边界的任何信息。(如果估计它们从未像素合并数据,然后用kkk仓检验统计量介于之间的分布χ2kχk2\chi^2_{k}和χ2k−pχk−p2\chi^2_{k-p})。 这种基于数据的垃圾箱选择是否会严重影响重要程度或效力?有一些方法比其他方法更重要吗?如果有很大的影响,在大样本中会消失吗? 如果确实有实质性影响,那么在许多情况下,未知参数几乎毫无用处(尽管在很多文本中仍然提倡使用),这似乎将使用卡方检验,除非您有很好的经验。 -参数的先验估计。 讨论问题或引用参考(最好提及其结论)将很有用。 编辑,除了主要问题: 在我看来,对于指数*的特定情况(并可以考虑使用)有可能的解决方案,但是我仍然对影响选择箱边界的更普遍的问题感兴趣。 *例如,对于指数,可以使用最小的观测值(例如等于mmm)来粗略地了解将垃圾箱放置在哪里(因为最小的观测值的平均值为μ/nμ/n\mu/n)。测试剩余的n−1n−1n-1差异(xi−mxi−mx_i - m)的指数性。当然,这可能会得出非常差的μ估计值μμ\mu,因此选择了不正确的箱,尽管我想人们可能会递归地使用该参数,以便从最低的两个或三个观测值中选择合理的箱,然后测试其余观测值的差异,以求取最小的最小顺序统计量中的最大值指数)

1
培生卡方检验的工作原理
经过最近的否决,我一直在尝试检查我对Pearson Chi Squared测试的理解。我通常使用卡方统计量(或减少的卡方统计量)来拟合或检查结果拟合。在这种情况下,方差通常不是表格或直方图中预期的计数数量,而是一些实验确定的方差。无论哪种方式,我始终给人一种印象,那就是该测试仍然使用多项式PDF的渐近正态性(即我的测试统计量为 Q=(n−Nm)⊤V−1(n−Nm)Q=(n−Nm)⊤V−1(n−Nm)Q = (n-Nm)^\top V^{-1}(n-Nm) 和是渐近multinormal其中是是协方差矩阵)。因此,对于给定的大,具有卡方分布,因此使用期望的计数数作为统计量中的分母对大变得有效。这可能仅适用于直方图,多年以来我都没有分析过一个小的数据表。(n−Nm)(n−Nm)(n-Nm)VVVQQQnnnnnn 我还有更微妙的论据吗?我将对参考感兴趣,或者最好是简短的解释。(尽管有可能我只是因为省略渐近这个词而被否决,但我承认这很重要。)

2
为什么卡方检验使用期望的计数作为方差?
在测试中,将期望计数的平方根用作每个正态分布的标准偏差(即期望计数作为方差)的基础是什么?我唯一可以找到的讨论这件事的唯一方法就是http://www.physics.csbsju.edu/stats/chi-square.html,它只提到了泊松分布。χ2χ2\chi^2 作为我的困惑的简单说明,如果我们测试两个过程是否存在显着差异,一个过程会产生500 As和500 Bs的极小方差,另一个过程会产生550 As和450 Bs的极小方差(很少产生551 As和449 Bs)?此处的差异不是仅是预期值吗? (我不是统计学家,所以要真正寻找非专家可以理解的答案。)

1
两个独立随机变量(正态和卡方)乘积的pdf
如果X和Y是独立的,则两个独立的随机变量X和Y的乘积的pdf是多少?X是正态分布,Y是卡方分布。 Z = XY 如果XXX具有正态分布X∼N(μx,σ2x)X∼N(μx,σx2)X\sim N(\mu_x,\sigma_x^2) fX(x)=1σx2π−−√e−12(x−μxσx)2fX(x)=1σx2πe−12(x−μxσx)2f_X(x)={1\over\sigma_x\sqrt{2\pi}}e^{-{1\over2}({x-\mu_x\over\sigma_x})^2} 和YYY具有卡方分布自由度 whre是单位阶跃函数。kkkY∼χ2kY∼χk2Y\sim \chi_k^2 fY(y)=y(k/2)−1e−y/22k/2Γ(k2)u(y)fY(y)=y(k/2)−1e−y/22k/2Γ(k2)u(y)f_Y(y)={y^{(k/2)-1}e^{-y/2}\over{2^{k/2}\Gamma({k\over2})}}u(y)u(y)u(y)u(y) 现在,如果X和Y独立,则的pdf 是多少?ZZZXXXYYY 找到解决方案的一种方法是使用Rohatgi的著名结果(1976,p.141),如果fXY(x,y)fXY(x,y)f_{XY}(x,y)是连续RV XXX和Y的联合pdf YYY,则Z的pdf ZZZ是 fZ(z)=∫∞−∞1|y|fXY(zy,y)dyfZ(z)=∫−∞∞1|y|fXY(zy,y)dyf_Z(z) = \int_{-\infty}^{\infty}{{1\over|y|}f_{XY}({z\over y},y)dy} 由于和是独立的 我们面临解决积分。谁能帮助我解决这个问题。ÿ ˚F X Ý(X ,ÿ )= ˚F X(X )˚F Ý(Ý )˚F Ž(ż )= ∫ ∞ - ∞ 1XXXYYYfXY(x,y)=fX(x)fY(y)fXY(x,y)=fX(x)fY(y)f_{XY}(x,y)=f_X(x)f_Y(y) fZ(z)=∫∞−∞1|y|fX(zy)fY(y)dyfZ(z)=∫−∞∞1|y|fX(zy)fY(y)dyf_Z(z) = \int_{-\infty}^{\infty}{{1\over|y|}f_{X}({z\over y})f_{Y}(y)dy} ∫∞01fZ(z)=1σx2π−−√12k/2Γ(k2)∫∞01|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dyfZ(z)=1σx2π12k/2Γ(k2)∫0∞1|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dyf_Z(z) = {1\over\sigma_x\sqrt{2\pi}}{1\over{2^{k/2}\Gamma({k\over2})}}\int_{0}^{\infty}{{1\over|y|}e^{-{1\over2}({{z\over y}-\mu_x\over\sigma_x})^2} {y^{(k/2)-1}e^{-y/2}}dy} ∫∞01|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dy∫0∞1|y|e−12(zy−μxσx)2y(k/2)−1e−y/2dy\int_{0}^{\infty}{{1\over|y|}e^{-{1\over2}({{z\over …

2
列联表:要执行什么测试以及何时执行?
我希望看到有关古老的chi-sq与Fisher的确切测试辩论的讨论的扩展,从而扩大了范围。列联表中有许多用于交互的测试,足以使我旋转。我希望对我应该使用哪种测试以及何时使用进行解释,当然也可以解释为什么一个测试比另一个测试更受欢迎。 我目前的问题是经典的情况,但是至少在不确定的情况下,欢迎提供有关更高维度的答案,以及在R中实现各种解决方案的技巧。n×mn×mn \times m 下面列出了我知道的所有测试;我希望通过公开我的错误可以纠正它们。 χ2χ2\chi^2。旧的备用。这里有三个主要选项: R对2x2表内置的校正:“从所有差中减去一半。” 我应该一直这样做吗?|O−E||O−E||O-E| “ ”测试,不确定如何在R中执行此操作。χ 2N−1N−1N-1χ2χ2\chi^2 蒙特卡洛模拟。这总是最好的吗?为什么我这样做时R不给我df? 费舍尔的精确检验。 传统上建议何时应将任何单元格小于4,但显然有些人对此建议提出异议。 (通常是错误的)边际固定的假设真的是这个测试的最大问题吗? 巴纳德的精确测试 另一个确切的测试,只是我从未听说过。 泊松回归 关于glms总是让我感到困惑的一件事就是如何进行这种重要性测试,因此在此方面的帮助将不胜感激。最好进行嵌套模型比较吗?对于特定预测变量的Wald检验呢? 我真的应该一直在进行泊松回归吗?这是什么和之间的实际差别测试?χ2χ2\chi^2

2
皮尔逊残差
在卡方检验拟合优度的背景下,有关皮尔逊残差的初学者问题: 除测试统计量外,R chisq.test函数还报告皮尔逊残差: (obs - exp) / sqrt(exp) 我理解为什么查看观察值与期望值之间的原始差异并不能提供足够的信息,因为较小的样本将导致较小的差异。但是,我想更多地了解分母的作用:为什么要除以期望值的根?这是“标准化”残差吗?

2
卡方拟合优度检验的事后检验
我正在对三个类别进行卡方拟合优度(GOF)测试,并且特别想测试每个类别中的人口比例是否相等(即每个组中的比例为1/3)的零值: 观察到的数据 组1 组2 组3 总计 686 928 1012 2626 因此,对于此GOF测试,预期计数为2626(1/3)= 875.333,该测试得出的p值非常显着<0.0001。 现在,很明显,第1组与第2组和第3组明显不同,第2组和第3组也不大可能明显不同。但是,如果我确实想对所有这些进行正式测试并能够为每种情况提供p值,那么什么是合适的方法? 我在网上搜索了所有内容,似乎有不同的意见,但没有正式的文档。我想知道是否有文本或经过同行评审的论文可以解决这个问题。 对于我来说,似乎很合理的方法是,根据显着的总体检验,对每对比例的差异进行z检验,并可能对值进行校正(例如,可能是Bonferroni)。αα\alpha

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

3
使用glm()代替简单的卡方检验
我有兴趣更改glm()R中使用的原假设。 例如: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) 检验的假设p = 0.5p=0.5p = 0.5。如果我想将null更改为ppp =某个任意值,该glm()怎么办? 我知道也可以使用prop.test()和来完成此操作chisq.test(),但是我想探讨一下使用glm()来测试与分类数据有关的所有假设的想法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.