Questions tagged «contingency-tables»

由(至少)两个边际类别排列的计数表(有时是边际计数的比例),显示双变量或多变量频率。有时称为交叉表。

2
鉴于当今计算机的强大功能,是否有理由进行卡方检验而不是费舍尔的精确检验?
鉴于如今软件可以轻松地进行Fisher精确检验的计算,在任何情况下,从理论上或实践上,卡方检验实际上都比Fisher精确检验更可取吗? Fisher精确测试的优点包括: 缩放到大于2x2的列联表(即任何r x c表) 给出精确的p值 不需要最小期望单元格数即可有效

2
卡方检验和等比例检验之间的关系是什么?
假设我有三个具有四个互斥特征的人口。我从每个总体中随机抽取样本,并针对我要测量的特征构建交叉表或频率表。我的说法是否正确: 如果我想测试总体与特征之间是否存在任何关系(例如,一个总体是否具有较高的特征之一频率),我应该进行卡方检验,看看结果是否显着。 如果卡方检验显着,则仅表明人口与特征之间存在某种关系,而没有关系。 此外,并非所有特征都需要与人口有关。例如,如果不同的总体具有特征A和B的显着不同的分布,但没有特征C和D的分布,则卡方检验可能仍然具有显着性。 如果我想衡量一个特定的特性是否受影响人口,那么我可以运行相同比例的测试(我已经看到了这个被称为Z测试,或prop.test()在R)在这一点特点。 换句话说,prop.test()当卡方检验表明存在显着关系时,使用来更准确地确定两组类别之间关系的性质是否合适?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
大于2x2的列联表中的Fisher精确检验
我被教导只在2x2的列联表中应用Fisher精确测试。 问题: 费舍尔本人是否曾设想过将这种测试用于大于2x2的表中(我知道他在尝试猜测一个老妇是否可以分辨是否向茶中添加了牛奶还是向茶中添加了茶的同时设计了该测试的传说) Stata允许我对任何列联表使用Fisher的精确测试。这有效吗? 当列联表中的预期单元数小于5时,是否最好使用FET?

4
列联表的最佳可视化是哪一个?
从统计的角度来看,哪张是最好的图来显示列联表,通常通过卡方检验来分析列联表?它是躲避的条形图,堆叠的条形图,热图,轮廓图,抖动的散点图,多条线图还是其他东西?应该显示绝对值还是百分比? 编辑:或如@forecaster在评论中建议的那样,数字表本身就是一个简单的图,应该足够了。


2
列联表:要执行什么测试以及何时执行?
我希望看到有关古老的chi-sq与Fisher的确切测试辩论的讨论的扩展,从而扩大了范围。列联表中有许多用于交互的测试,足以使我旋转。我希望对我应该使用哪种测试以及何时使用进行解释,当然也可以解释为什么一个测试比另一个测试更受欢迎。 我目前的问题是经典的情况,但是至少在不确定的情况下,欢迎提供有关更高维度的答案,以及在R中实现各种解决方案的技巧。n×mn×mn \times m 下面列出了我知道的所有测试;我希望通过公开我的错误可以纠正它们。 χ2χ2\chi^2。旧的备用。这里有三个主要选项: R对2x2表内置的校正:“从所有差中减去一半。” 我应该一直这样做吗?|O−E||O−E||O-E| “ ”测试,不确定如何在R中执行此操作。χ 2N−1N−1N-1χ2χ2\chi^2 蒙特卡洛模拟。这总是最好的吗?为什么我这样做时R不给我df? 费舍尔的精确检验。 传统上建议何时应将任何单元格小于4,但显然有些人对此建议提出异议。 (通常是错误的)边际固定的假设真的是这个测试的最大问题吗? 巴纳德的精确测试 另一个确切的测试,只是我从未听说过。 泊松回归 关于glms总是让我感到困惑的一件事就是如何进行这种重要性测试,因此在此方面的帮助将不胜感激。最好进行嵌套模型比较吗?对于特定预测变量的Wald检验呢? 我真的应该一直在进行泊松回归吗?这是什么和之间的实际差别测试?χ2χ2\chi^2

2
帕兰蒂尔(Palantir)的亚洲歧视案:概率是如何计算的?
我读了这篇有关Palantir案的文章,该案涉及劳动部指责他们歧视亚洲人。有谁知道他们从哪里获得这些概率估计值的? 我在项目(a)中得不到1/741。 (a)对于QA工程师职位,Palantir从730多名合格的申请人(其中约77%是亚洲人)中聘用了6名非亚洲人申请者,并且仅雇用了一名亚洲人申请者。OFCCP计算出的不利影响超过了三个标准偏差。根据机会发生此结果的可能性约为741。 (b)在软件工程师职位中,Palantir雇用了1,160多名合格的申请者,其中大约85%是亚洲人,Palantir雇用了14名非亚洲人申请者,仅雇用了11名亚洲人申请者。OFCCP计算出的不利影响超过了五个标准偏差。该结果根据偶然发生的可能性约为340万。 (c)对于QA工程师实习生职位,Palantir雇用了130多名合格的申请人(其中约73%是亚洲人)聘用了17名非亚洲人申请者,仅雇用了4名亚洲人申请者。OFCCP计算出的不利影响超过了六个标准偏差。根据机会发生此结果的可能性约为十亿分之一。

2
如果许多单元的频率小于5,则卡方检验的适用性
为了找到同伴的支持(独立变量)和工作满意度(独立变量)之间的关联,我希望应用卡方检验。对等人的支持程度根据支持程度分为四类:1 =很少程度,2 =一定程度,3 =很大程度,4 =很大程度。工作满意度分为两类:0 =不满意和1 =满意。 SPSS的输出结果表明,有37.5%的单元频率小于5。我的样本大小为101,我不想将自变量中的类别减少为更少的数目。在这种情况下,还有其他测试可用于测试此关联吗?

1
权变表中的权变是什么?
该韦氏字典定义一个偶然事件或情况为 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use in circumstances not completely foreseen 4 : …

2
phi,Matthews和Pearson相关系数之间的关系
phi和Matthews相关系数是同一概念吗?它们如何与两个二元变量的皮尔逊相关系数相关或等效?我假设二进制值为0和1。 两个伯努利随机变量和y之间的皮尔逊相关性是:xxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} 哪里 E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] …

2
阳性和阴性预测值的统计检验
我读了一篇论文,看到一张桌子,上面有PPV(正预测值)和NPV(负预测值)之间的比较。他们为他们做了某种统计检验,这是表格的示意图: PPV NPV p-value 65.9 100 < 0.00001 ... 每行都引用一个特定的列联表。 他们做了什么样的假设检验?谢谢!

2
NXM列联表的统计测试
我有一个由三组元素组成的数据集,我们称它们为G1,G2和G3。我分析了这些元素的某些特征,并将它们分为“行为” T1,T2和T3 3种类型(我使用聚类分析来完成)。 因此,现在我有了一个3 x 3的列联表,其中三个组中的元素计数按类型划分: | T1 | T2 | T3 | ------+---------+---------+---------+--- G1 | 18 | 15 | 65 | ------+---------+---------+---------+--- G2 | 20 | 10 | 70 | ------+---------+---------+---------+--- G3 | 15 | 55 | 30 | 现在,我可以对R中的这些数据进行Fisher测试 data <- matrix(c(18, 20, 15, 15, 10, 55, 65, …


2
通过基因重复水平进行富集分析
生物学背景 随着时间的流逝,某些植物物种倾向于复制其整个基因组,从而获得每个基因的额外副本。由于这种设置的不稳定性,许多这些基因随后被删除,基因组重新排列并稳定下来,准备再次复制。这些复制事件与物种形成和入侵事件相关,并且理论上说复制可以帮助植物更快地适应其新环境。 羽扇豆属开花植物属入侵安第斯山脉,是有史以来发现的最迅速的物种形成事件之一,而且,与最密切相关的属巴氏杆菌属相比,它的基因组中有更多重复副本。 现在是数学问题: 已经对羽扇豆成员和巴氏杆菌成员的基因组进行了测序,从而提供了每个物种中约25,000个基因的原始数据。通过查询已知功能基因的数据库,我现在对基因可能具有的功能有了“最佳猜测”-例如,Gene1298可能与“果糖代谢,盐胁迫反应,冷胁迫反应”相关。我想知道,巴普蒂西亚和羽扇豆之间是否有重复事件,基因丢失是随机发生的,还是具有特定功能的基因更可能被保留或删除。 我有一个脚本,它将输出如下表所示的表。L *是与功能相关的所有羽扇豆基因的计数。L 1+是与至少存在一个重复副本的功能相关的羽扇豆基因的计数。我可以得到它来产生L 2 +,L 3+等,尽管由于测序过程,L 1+比L 2+更可靠。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.