Questions tagged «contingency-tables»

由(至少)两个边际类别排列的计数表(有时是边际计数的比例),显示双变量或多变量频率。有时称为交叉表。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


1
哪个表可用于交叉表分析:Boschloo或Barnard?
我正在分析来自30位患者的小型数据集的2x2表。我们正在回顾性地尝试寻找一些变量,这些变量可以提示选择哪种治疗方法。变量(obs正常/奇怪)和治疗决策(A / B)具有特殊意义,因此数据如下所示: Obs / Tr。十二月正常奇怪一个12012乙13518岁25530Obs / Tr。十二月一个乙正常121325奇怪0551218岁30\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} 显然,一个单元格缺少条目,这不包括卡方检验,而Fisher的精确检验没有给出饱和的p值(但仍小于10%)。因此,我的第一个想法是找到一种功能更强大的测试,并且在博客和本文中有关Barnard和Boschloos测试的文章中进行了阅读 ,总的来说,有以下三种情况可以产生强大的测试: 固定列和行和 Fisher的精确检验→→\rightarrow 固定的列或(xclusive)行和 Barnard的精确检验→→\rightarrow 没有固定的 Boschloos的精确测试→→\rightarrow 上面的文章指出,处理A和处理B的总和以前几乎是未知的,因此我们可以排除Fisher的精确检验。但是其他选择呢?如果我们有健康的对照,我们可以控制安慰剂和verum组,我们可以控制这些数字,因此可以选择2:Barnard。就我而言,我不确定,因为一方面我们有一个类似的数学问题(观察水平的总和等于安慰剂/ verum的总和),这导致了Barnard,但设计有所不同,因为我们无法控制nr。采样前正常/奇怪的观察结果,导致3:Boschloo。 那么应该使用哪个测试,为什么呢?我当然要大功率。 (我想知道的另一个问题是,如果在chisq.testr的情况下使用不是更好prop.test(x, alternative = "greater")?在这里对理论方面进行了说明。)

1
R中的Fisher检验
假设我们有以下数据集: Men Women Dieting 10 30 Non-dieting 5 60 如果我在R中运行Fisher精确测试,那么alternative = greater(或更少)意味着什么?例如: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") 我得到的p-value = 0.01588和odds ratio = 3.943534。另外,当我像这样翻转列联表的行时: mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") 然后我得到p-value = 0.9967和odds ratio = 0.2535796。但是,当我在没有备用参数(即fisher.test(mat))的情况下运行两个列联表时,我得到了p-value = 0.02063。 你能告诉我原因吗? 此外,在上述情况下,原假设和替代假设是什么? 我可以在像这样的列联表上运行fisher测试: mat = matrix(c(5000,10000,69999,39999), 2, 2) PS:我不是统计学家。我正在尝试学习统计信息,以便您的帮助(用简单的英语回答)将受到高度赞赏。

2
辛普森悖论是否涵盖了所有从隐藏变量撤消的情况?
以下是有关作为“辛普森悖论”存在的“图片证明”提供的许多可视化的问题,以及有关术语的问题。 辛普森悖论是一个相当简单的现象来描述,并给予的(原因数值例子,为什么会发生这种情况是深刻而有趣)。矛盾的是,存在2x2x2列联表(Agresti,分类数据分析),其中边际关联与每个条件关联的方向不同。 也就是说,两个亚群中比率的比较都可以朝一个方向进行,但合并总体中的比率可以朝另一个方向进行。在符号中: 存在使得 a + ba ,b ,c ,d,ē ,˚F,g ^,小时一个,b,C,d,Ë,F,G,Ha,b,c,d,e,f,g,h一个+ bc + d&gt; e + fG+ 小时一个+bC+d&gt;Ë+FG+H \frac{a+b}{c+d} > \frac{e+f}{g+h} 但 和一个C&lt; eG一个C&lt;ËG \frac{a}{c} < \frac{e}{g} bd&lt; fHbd&lt;FH \frac{b}{d} < \frac{f}{h} 在以下可视化中(从Wikipedia)可以准确地表示出这一点: 一小部分是简单地对应的矢量的斜率,并且很容易在该示例中看到,较短乙矢量具有比相应的L矢量更大的斜率,但合并乙向量具有较小比组合1载体斜率。 有许多形式的非常常见的可视化,特别是在Simpson上的Wikipedia参考文献的开头: 这是混淆的一个很好的例子,隐藏变量(将两个子种群分开)如何显示不同的模式。 但是,从数学上讲,这样的图像绝不对应于作为基于辛普森悖论现象的现象的列联表的显示。首先,回归线位于实值点集数据之上,而不是对列联表中的数据进行计数。 同样,可以在回归线上创建具有任意斜率关系的数据集,但是在列联表中,斜率的不同程度受到限制。也就是说,总体的回归线可以与给定子群体的所有回归正交。但是,在辛普森悖论中,尽管不是反向回归,但亚群的比率即使偏离另一个方向,也不会偏离合并的人群(同样,请参见维基百科的比率比较图)。 对我来说,每次我将后者视为辛普森悖论的形象时,都足以吓一跳。但是,由于我到处都看到(我称之为错误的)示例,所以我很想知道: 我是否错过了从原始的Simpson / Yule列联表示例到转化为回归线可视化的真实值的微妙转换? 当然,辛普森的错误是一个特殊的例子。已经术语“辛普森悖论”现在已经成为等同于与混杂的错误,所以,无论数学,任何通过隐变量的方向变革,可以称之为辛普森悖论? 附录:以下是对2xmxn(或2乘以m,连续的)表的一般化示例: 如果以投篮方式合并,则防守者越近,球员的投篮机会就越多。按投篮类型分组(实际上是与篮筐的距离),则发生的直观情况越多,则投篮越多,防守队员越远。 我认为此图像是辛普森(Simpson's)对更连续情况(防御者的距离)的概括。但是我仍然看不到回归线示例是Simpson的示例。

1
在2x2和1x2(单因素-二进制响应)列联表中是否进行逻辑回归与卡方检验?
我想了解2x2和Ix2列联表中逻辑回归的使用。例如,以此为例 使用卡方检验和逻辑回归有什么区别?像这样具有多个名义因子的表(Ix2表)呢: 还有一个类似的问题在这里 -但答案是主要是卡方能够处理MXN表,但我的问题是什么是specificalyl的时候有一个二元结果和单一标称因素。(链接的线程也引用该线程,但这与多个变量/因数有关)。 如果只是具有二进制响应的单个因素(即无需控制其他变量),那么进行逻辑回归的目的区别是什么?

3
G检验与Pearson的卡方检验
我在列联表中测试独立性。我不知道G检验或Pearson的卡方检验是否更好。样本数量为数百,但单元格计数较低。如Wikipedia页面所述,对于G检验,卡方分布的近似值比对Pearson的卡方检验更好。但是我正在使用蒙特卡洛模拟来计算p值,所以这两个测试之间有什么区别吗?ñ× Mñ×中号N \times M

1
如何解释Cochran-Mantel-Haenszel检验?
我正在测试由C分层的两个变量A和B的独立性。A和B是二进制变量,C是分类变量(5个值)。运行费舍尔对A和B(所有层的总和)的精确测试,我得到: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * 其中OR是优势比(估计值和95%置信区间),*意味着p &lt;0.05。 对每个层(C)运行相同的测试,我得到: C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
卡方检验分布是否相等:它可以容忍多少个零?
我正在比较两组突变体,每组突变体只能具有21种不同表型中的一种。我想看看两组之间这些结果的分布是否相似。我找到了一个在线测试 ,用于计算“分布均等性的卡方检验”,并给出一些合理的结果。但是,此表中有很多零,所以在这种情况下我可以完全使用卡方吗? 这是具有两组和特定表型计数的表: 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 0 1

4
Fisher对配对数据的精确测试
假设有例肺癌患者和匹配的对照组(无肺癌)(根据年龄,性别等进行匹配)。为了找到吸烟对肺癌的影响之间的证据,我在列联表上使用了Fisher的精确检验。但是,这没有考虑到控制和案例是匹配的。 404040404040 所以我想知道是否有一种方法可以使用费舍尔的精确测试来考虑两组之间的匹配?

2
列联表的贝叶斯分析:如何描述效应大小
我正在研究Kruschke的《做贝叶斯数据分析》中的示例,特别是ch中的泊松指数方差分析。22,他作为对偶发表独立性的频繁卡方检验的替代品。 我可以看到我们如何获得有关变量交互比独立变量(即,当HDI排除零时)所期望的交互频率更高或更低的信息。 我的问题是如何在此框架中计算或解释效果大小?例如,克鲁什克(Kruschke)写道:“蓝眼睛和黑发的组合发生的频率要比如果眼睛的颜色和头发的颜色独立的情况下发生的频率要低”,但是我们如何描述这种关联的强度?我如何分辨哪些互动比其他互动更极端?如果我们对这些数据进行卡方检验,则可以计算Cramér的V,作为整体效果大小的度量。如何在这种贝叶斯语境中表达效果大小? 这是本书中的独立示例(代码为R),以防万一答案在我眼前隐藏在我眼前…… df &lt;- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", "Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel"))) df Blue Brown Green Hazel Black 20 68 5 15 Blond 94 7 16 …

2
分类名义变量之间的类别之间的相关性
我有一个包含两个分类名义变量的数据集(均包含5个分类)。我想知道是否(以及如何)能够从这两个变量中识别类别之间的潜在关联。 换句话说,例如类别的结果 一世一世i变量1中的变量与变量2中的特定类别有很强的相关性。由于我有两个具有5个类别的变量,因此所有类别的总相关性分析将归结为25个结果(至少以我希望的方式/希望它能正常工作)。ĴĴj 我试图将问题表达为具体的问题: 问题1:假设我将分类变量转换为每个值(类别)5个不同的虚拟变量。我也为第二个变量运行相同的过程。然后,我想确定虚拟1.i和2.i之间的相关性(例如)。对我来说,通过普通的相关系数过程执行此过程在统计上是否正确?通过此过程得出的相关系数是否可以正确了解两个虚拟变量之间的相关性? 问题2:如果问题一中描述的过程是有效过程,是否可以同时对所有2个(或更多)分类名义变量类别进行分析? 我正在使用的程序是SPSS(20)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.