Questions tagged «chi-squared»

测试(通常是分布,独立性或拟合优度)或与此测试相关的分布族。

1
了解卡方检验和卡方分布
我试图理解卡方检验背后的逻辑。 卡方测试是。χ2然后比较卡方分布,找出一个p.value以拒绝或不零假设。H0:观测值来自我们用来创建期望值的分布。例如,我们可以测试获得概率是否如我们预期的那样由p给出。所以我们翻转100次,发现ñ^ h和1-ñ^ h。我们希望我们的发现比较预期是什么(100⋅p)。我们也可以使用二项式分布,但这不是问题的重点……问题是:χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p 您能否解释一下为什么在零假设下遵循卡方分布吗?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} 关于卡方分布,我所知道的是,度的卡方分布是k平方标准正态分布的总和。kkkkkk

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
为什么独立性测试使用卡方分布?
所述拟合优度测试使用以下统计: 在测试中,授予该该条件得到满足,一个用途 - 分布来计算p值,鉴于条件之一将相同尺寸的代表性样品中观察这样的值。χ 2 0 = Ñ Σ我= 1(直径:我 - ë 我)2χ2χ2\chi^2 χ2ħ0χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 但是,为了使统计遵循(具有个自由度),必须为: 用于独立的标准普通(Wikipedia)。测试的条件如下(同样来自Wikipedia): χ 2 ñ - 1 ñ Σ我= 1(直径:我 - ë 我)2χ20χ02\chi_0^2χ2χ2\chi^2n−1n−1n-1 Zi∑i=1n(Oi−Ei)2Ei=∑i=1n−1Z2i∑i=1n(Oi−Ei)2Ei=∑i=1n−1Zi2 \sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^{n-1}Z_i^2 ZiZiZ_i 人口样本代表 大样本量 预期细胞数足够大 每个类别之间的独立性 从条件(1,2)可以看出,我们满足了从样本到总体的推断条件。(3)似乎是一个必要的假设,因为分母中的离散计数不会导致每个的近连续分布,并且如果它不够大,则存在可以用Yates校正的误差校正 -这似乎是由于以下事实:离散分布基本上是“泛滥”的连续分布,因此每个分布的偏移都可以对此进行校正。ž 我EiEiE_iZiZiZ_i1/21/21/2 (4)的必要性似乎稍后会派上用场,但我不知道如何。 起初,我认为对于使统计信息与分布匹配是必要的。这使我得出一个令人质疑的假设,即,这确实是错误的。实际上,从等式两边的维数从到可以看出,事实并非如此。Zi=Oi−EiEi√Zi=Oi−EiEiZ_i=\frac{O_i-E_i}{\sqrt{E_i}}Oi−Ei∼N(0,Ei−−√)Oi−Ei∼N(0,Ei)O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})nnnn−1n−1n-1 由于whuber的解释,很明显不必等于每个项,因为对于功能独立的标准正态随机变量,(注意总的减少)。ZiZiZ_iOi−EiEi√Oi−EiEi\frac{O_i-E_i}{\sqrt{E_i}}χ20=∑n−1i=1Z2iχ02=∑i=1n−1Zi2\chi_0^2=\sum_{i=1}^{n-1}Z_i^2ZiZiZ_i 那么,我的问题是如何遵循分布?项中的每一个的什么样的组合会导致平方标准法线?显然,这需要使用CLT(这很有意义),但是如何?换句话说,每个等于(或近似等于)是多少?χ20χ02\chi_0^2χ2χ2\chi^2 Z 2 i Zi(Oi−Ei)2Ei(Oi−Ei)2Ei\frac{(O_i-E_i)^2}{E_i}Z2iZi2Z_i^2ZiZiZ_i

2
该 -test VS的 -试验比较2组患感冒的几率
我刚刚读了一篇颇受人尊敬的(受欢迎的)科学杂志(德国PM,02/2013,第36页),其中讲述了一个有趣的实验(不幸的是,没有资料来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但是所提供的信息足以重现统计检验。 研究人员想知道,在寒冷的天气中变冷是否会增加患感冒的几率。因此,他们将180名学生随机分为两组。一组不得不将脚放进冷水中20分钟。另一个人穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为很有趣。除了道德问题。 无论如何,经过5天的治疗,治疗组中的13名学生患了感冒,但只有5名学生保持着鞋凉。因此,该实验的优势比为2.87。 鉴于样本量很小,我开始怀疑这种差异是否可能很大。所以我进行了两次测试。 首先,使用正态逼近对比例相等进行简单测试。该测试的,。我的猜测是,这就是研究人员测试过的。这确实很重要。但是,由于正态近似,如果没有记错的话,此z检验仅在大样本中有效。此外,患病率还很小,我想知道这是否不会影响效果置信区间的覆盖率。p = 0.0468z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 因此,我的第二次尝试是对卡塔尔独立性进行卡方检验,包括蒙特卡罗模拟和标准皮尔逊卡方。在这里,我发现p值都约为。p=.082p=.082p=.082 现在,所有这些都不会让您对结果感到放心。我想知道是否有更多选择来测试此数据,以及您对这两项测试的想法是什么(特别是第一个重要测试的假设)

2
调整p值以进行自适应顺序分析(用于卡方检验)?
我想知道哪些统计文献与以下问题有关,甚至可能有关于如何解决该问题的想法。 想象以下问题: 对于某些疾病,我们有4种可能的治疗方法。为了检查哪种治疗更好,我们进行了一次特殊的试验。在试验中,我们从没有受试者开始,然后一个接一个地将更多受试者输入试验。每个患者随机分配到4种可能的治疗方法之一。治疗的最终结果是“健康”或“仍然生病”,我们可以立即知道该结果。这意味着,在任何给定的点上,我们都可以创建一个2 x 4的列联表,说明我们有多少受试者属于哪种治疗/最终结果。 在任何时候,我们都可以检查列联表(例如,使用卡方检验),以查看这4种可能的治疗方法之间在统计学上是否存在不同的治疗方法。如果其中一个比较好,那么其余所有-我们将停止试验并选择它作为“优胜者”。如果某个试验被证明比其他三个试验都更糟,我们将把他从试验中删除,并停止提供给将来的患者。 但是,这里的问题是我如何针对可以在任何给定点执行测试,测试之间存在相关性以及过程的自适应性质操纵过程的事实来调整p值。例如,如果发现某些治疗方法“不好”)?

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
如果您的自由度超出了桌子的末端,该怎么办?
F表的自由度无法满足我的大样本要求。 例如,如果我有一个自由度为5和6744的F,我如何找到方差分析的5%临界值? 如果我在进行具有较大自由度的卡方检验该怎么办? [这样的问题是在不久前发布的,但是OP出错了,实际上是一个较小的df,将其减少为重复的-但原来的大df问题应该在现场的某个地方有一个答案]

1
卡方测试可用于哪种特征选择?
在这里,我问其他人在监督学习中通常使用卡方检验来进行特征选择和结果选择的做法。如果我理解正确,他们是否测试每个功能和结果之间的独立性,并比较每个功能的测试之间的p值? 在http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test中, 皮尔逊卡方检验是一种统计检验,应用于分类数据集,以评估两组之间观察到的差异是偶然产生的可能性。 ... 独立性测试评估列联表中表示的关于两个变量的成对观测值是否彼此独立(例如,轮询来自不同国籍的人的答复,以查看其国籍是否与答复相关)。 那么,由测试测试其独立性的两个变量是否应该是分类的或离散的(除分类之外允许排序),而不是连续的? 从http://scikit-learn.org/stable/modules/feature_selection.html,他们 执行χ2χ2\chi^2测试到虹膜数据集到只检索最佳的两个特征。 在虹膜数据集中,所有特征都是数字值和连续值,结果是类标签(分类)。卡方独立性检验如何应用于连续要素? 要将卡方独立性检验应用于数据集,我们是否首先通过装仓(即先将要素的连续域离散化为仓,然后将其替换为仓中的要素值)来将连续要素转换为离散要素)? 几个容器中的出现形成多项式特征(每个容器中都发生或不发生),因此卡方独立性检验可以应用于它们,对吗? 顺便说一句,我们可以将卡方独立性检验应用于任何特征和结果吗? 对于结果部分,我们不仅可以通过卡方独立性检验,通过对连续结果进行分箱来选择用于分类的特征,还可以为回归选择特征,对吗? scikit学习网站还说 计算每个非负要素与类之间的卡方统计量。 此分数可用于从X中选择测试卡方统计量具有最高值的n_features特征,该特征必须仅包含非负特征,例如布尔值或频率 (例如,文档分类中的术语计数),相对于类。 为什么测试需要非阴性功能? 如果这些特征没有符号,但是是分类的或离散的,则测试仍然可以应用到它们吗?(请参阅我的第1部分) 如果特征是负的,我们总是可以对它们的域进行归类,并用它们的出现替换它们(就像我对将测试应用于虹膜数据集所猜测的那样,请参阅第2部分),对吗? 注意:我猜Scikit Learn遵循一般原则,这就是我在这里要的。如果没有,那还是可以的。


1
使用null和模型偏差测试GLM模型
我已经在R中建立了一个glm模型,并已经通过一个测试和培训小组对其进行了测试,因此确信它可以很好地工作。R的结果是: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.781e+00 1.677e-02 -165.789 < 2e-16 *** Coeff_A 1.663e-05 5.438e-06 3.059 0.00222 ** log(Coeff_B) 8.925e-01 1.023e-02 87.245 < 2e-16 *** log(Coeff_C) -3.978e-01 7.695e-03 -51.689 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

2
p值的微妙之处:更大等于更大
当我阅读Wassermann的《所有统计》一书时,我注意到p值的定义有些微妙,我无法理解。Wassermann非正式地将p值定义为 [..] 观察测试统计值等于或大于实际观察值的概率(在下)。H0H0H_0 重点已添加。正式上也一样(定理10.12): 假设大小测试的形式为αα\alpha 仅当T(X ^ n)\ ge c_ \ alpha时拒绝H_0。H0H0H_0T(Xn)≥cαT(Xn)≥cαT(X^n) \ge c_\alpha 然后, p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = \sup_{\theta\in\Theta_0} P_{\theta_0}[T(X^n) \ge T (x^n)] 其中xnxnx^n是X ^ n的观测值XnXnX^n。如果Θ0={θ0}Θ0={θ0}\Theta_0=\{\theta_0\}则 p-value=Pθ0[T(Xn)≥T(xn)]p-value=Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = P_{\theta_0}[T(X^n) \ge T (x^n)] 此外,Wassermann将Pearson的χ2χ2\chi^2检验(和其他类似的检验)的p值定义为: p-value=P[χ2k−1>T].p-value=P[χk−12>T].\text{$p$-value} = P[\chi^2_{k-1} > T]. 我想澄清的部分是第一个定义中的大等号(≥≥\ge)和第二个定义中的大号(>>>)。我们为什么不写≥T≥T\ge T,它会匹配“ 等于或大于极限” 的第一引号? 这是绝对的方便,以便我们将p值计算为吗?我注意到R也使用带有符号的定义,例如in 。1−F(T)1−F(T)1-F(T)>>>chisq.test

1
卡方因变量的比例分布
假设,其中是独立的。X 我〜Ñ (0 ,σ 2)X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) 我的问题是,什么分布 Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} 跟随?从这里我知道两个表示为卡方随机变量的比率遵循Beta分布。我认为这假设和之间具有独立性。但是在我的情况下,的分母包含平方的成分。 WYZXWW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX 我认为也必须遵循Beta分布的变化,但是我不确定。如果这个假设是正确的,我不知道如何证明它。ZZZ

2
卡方变量的无穷集合的阶数统计(例如最小值)?
这是我第一次来,因此,请让我知道我是否可以以任何方式(包括格式,标签等)来澄清我的问题。(希望我以后可以编辑!)我试图找到参考,并尝试使用归纳法解决自己,但都失败了。 我正在尝试简化一种分布,该分布似乎可以简化为具有不同自由度的无数独立随机变量的无穷集合的有序统计。具体而言,在独立的中第个最小值的分布是什么?χ2χ2\chi^2mmmχ22,χ24,χ26,χ28,…χ22,χ42,χ62,χ82,…\chi^2_2,\chi^2_4,\chi^2_6,\chi^2_8,\ldots 我会对特殊情况感兴趣:(独立)的最小值的分布是什么?m=1m=1m=1χ22,χ24,χ26,…χ22,χ42,χ62,…\chi^2_2,\chi^2_4,\chi^2_6,\ldots 对于最小的情况,我能够将累积分布函数(CDF)编写为无限乘积,但无法进一步简化。我使用了的CDF 为 (对于m = 1,这确认了下面关于等价指数为2的等价物的第二条评论。)则最小CDF可以写为F_ {min}(x)= 1-(1-F_2(x) )(1-F_4(x))\ ldots = 1- \ prod_ {m = 1} ^ \ infty(1-F_ {2m}(x))= 1- \ prod_ {m = 1} ^ \ infty \ left (e ^ {-x / 2} \ sum_ {k = 0} ^ {m-1} \ frac {x ^ …


4
多项卡方检验
我在2 x 2 x 6表格中交叉分类了数据。让我们叫的尺寸response,A和B。我用模型对数据进行逻辑回归response ~ A * B。对该模型偏差的分析表明,术语及其相互作用都是重要的。 但是,从数据的比例来看,似乎只有2个左右的水平B对这些重要影响负责。我想测试一下是哪个级别的罪魁祸首。现在,我的方法是在的2 x 2表上执行6个卡方检验response ~ A,然后针对多个比较对这些检验的p值进行调整(使用Holm调整)。 我的问题是,对于这个问题是否有更好的方法。是否有更原则的建模方法或多重卡方检验比较方法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.