统计和大数据 chi-squared

1

我有四个竞争模型，可用来预测n个受试者的二元结果变量（例如，毕业后的就业状况，1 =就业，0 =失业）。模型性能的自然指标是命中率，命中率是每个模型的正确预测的百分比。在我看来，由于数据违反了ANOVA的假设，因此我无法在此设置中使用ANOVA。在上述设置中，是否可以使用等效程序代替ANOVA来检验所有四个模型均等效的假设？

11 anova chi-squared generalized-linear-model

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Fisher的精确检验采用哪种分布？

在我的工作中，我看到了费舍尔精确检验的几种用法，我想知道它是否适合我的数据。看了几个资料，我了解了如何计算统计量，但从未见过对假定的零假设的清晰而正式的解释。有人可以向我解释或推荐我对假设分布的正式解释吗？将感谢您对列联表中的值进行解释。

11 hypothesis-testing chi-squared multinomial contingency-tables fishers-exact

1

哪个表可用于交叉表分析：Boschloo或Barnard？

我正在分析来自30位患者的小型数据集的2x2表。我们正在回顾性地尝试寻找一些变量，这些变量可以提示选择哪种治疗方法。变量（obs正常/奇怪）和治疗决策（A / B）具有特殊意义，因此数据如下所示： Obs / Tr。十二月正常奇怪一个12012乙13518岁25530Obs / Tr。十二月一个乙正常121325奇怪0551218岁30\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} 显然，一个单元格缺少条目，这不包括卡方检验，而Fisher的精确检验没有给出饱和的p值（但仍小于10％）。因此，我的第一个想法是找到一种功能更强大的测试，并且在博客和本文中有关Barnard和Boschloos测试的文章中进行了阅读，总的来说，有以下三种情况可以产生强大的测试：固定列和行和 Fisher的精确检验→→\rightarrow 固定的列或（xclusive）行和 Barnard的精确检验→→\rightarrow 没有固定的 Boschloos的精确测试→→\rightarrow 上面的文章指出，处理A和处理B的总和以前几乎是未知的，因此我们可以排除Fisher的精确检验。但是其他选择呢？如果我们有健康的对照，我们可以控制安慰剂和verum组，我们可以控制这些数字，因此可以选择2：Barnard。就我而言，我不确定，因为一方面我们有一个类似的数学问题（观察水平的总和等于安慰剂/ verum的总和），这导致了Barnard，但设计有所不同，因为我们无法控制nr。采样前正常/奇怪的观察结果，导致3：Boschloo。那么应该使用哪个测试，为什么呢？我当然要大功率。（我想知道的另一个问题是，如果在chisq.testr的情况下使用不是更好prop.test(x, alternative = "greater")？在这里对理论方面进行了说明。）

11 chi-squared power contingency-tables fishers-exact

2

期望

令，，，为独立的。的期望是什么？X1X1X_1X2X2X_2⋯⋯\cdotsXd∼N(0,1)Xd∼N(0,1)X_d \sim \mathcal{N}(0, 1)X41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} 容易找到。但是我不知道如何找到。您能提供一些提示吗？E(X21X21+⋯+X2d)=1dE(X12X12+⋯+Xd2)=1d\mathbb{E}\left(\frac{X_1^2}{X_1^2 + \cdots + X_d^2}\right) = \frac{1}{d}X41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} 到目前为止我得到了什么我想通过对称找到。但这与因为可能不等于。因此，我需要其他一些想法来找到期望。E(X41(X21+⋯+X2d)2)E(X14(X12+⋯+Xd2)2)\mathbb{E}\left(\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2}\right)E(X21X21+⋯+X2d)E(X12X12+⋯+Xd2)\mathbb{E}\left(\frac{X_1^2}{X_1^2 + \cdots + X_d^2}\right)E(X4i(X21+⋯+X2d)2)E(Xi4(X12+⋯+Xd2)2)\mathbb{E}\left(\frac{X_i^4}{(X_1^2 + \cdots + X_d^2)^2}\right)E(X2iX2j(X21+⋯+X2d)2)E(Xi2Xj2(X12+⋯+Xd2)2)\mathbb{E}\left(\frac{X_i^2X_j^2}{(X_1^2 + \cdots + X_d^2)^2}\right) 这个问题来自哪里数学堆栈交换中的一个问题要求S ^ {d-1}上的单位均匀随机向量x的方差。我的推导表明，答案非常取决于\ mathbb {E} \ left（\ frac {X_i ^ 4} {（X_1 …

10 probability self-study normal-distribution chi-squared expected-value

1

两个样本卡方检验

这个问题来自范德法特（Van der Vaart）的书《渐近统计》（渐近统计）。253.＃3：假设和是具有参数和独立多项式向量。在零假设下表明XmXm\mathbf{X}_mYnYn\mathbf{Y}_n(m,a1,…,ak)(m,a1,…,ak)(m,a_1,\ldots,a_k)(n,b1,…,bk)(n,b1,…,bk)(n,b_1,\ldots,b_k)ai=biai=bia_i=b_i ∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i∑i=1k(Xm,i−mc^i)2mc^i+∑i=1k(Yn,i−nc^i)2nc^i\sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}具有分布。其中。Ç我 = （X 米，我 + ÿ Ñ ，我）/（米+ Ñ ）χ2k−1χk−12\chi^2_{k-1}c^i=(Xm,i+Yn,i)/(m+n)c^i=(Xm,i+Yn,i)/(m+n)\hat{c}_i = (X_{m,i} + Y_{n,i})/(m+n) 我需要一些入门帮助。这里的策略是什么？我能够将两个求和数合并为： ∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i∑i=1k(mYn,i−nXm,i)2mn(m+n)c^i\sum_{i=1}^k \dfrac{(mY_{n,i} - nX_{m,i})^2}{mn(m+n)\hat{c}_i} 但与CLT，因为它的加权组合这不会工作XmXmX_m和YnYnY_n。不确定这是否是正确的路径。有什么建议么？编辑：如果m=nm=nm=n则很容易，因为我们得到 mYn−nXmmn(m+n)−−−−−−−−−√=Yn−Xm(m+n)−−−−−−−√mYn−nXmmn(m+n)=Yn−Xm(m+n)\begin{align*} \dfrac{mY_{n} - nX_{m}}{\sqrt{mn(m+n)}} &= \dfrac{Y_{n} - X_{m}}{\sqrt{(m+n)}} \end{align*} 其中分子可以看作是多项式变量的差之和，因此我们可以应用CLT，然后使用同一章的定理17.2结束它。但是，我无法弄清楚如何在这种情况下使用不同的样本量来解决这个问题。有什么帮助吗？(1,a1,…,ak)(1,a1,…,ak)(1,a_1,\ldots,a_k) 链接到van der Vaart的 Google图书的第17章

10 self-study chi-squared multinomial central-limit-theorem

1

在2x2和1x2（单因素-二进制响应）列联表中是否进行逻辑回归与卡方检验？

我想了解2x2和Ix2列联表中逻辑回归的使用。例如，以此为例使用卡方检验和逻辑回归有什么区别？像这样具有多个名义因子的表（Ix2表）呢：还有一个类似的问题在这里 -但答案是主要是卡方能够处理MXN表，但我的问题是什么是specificalyl的时候有一个二元结果和单一标称因素。（链接的线程也引用该线程，但这与多个变量/因数有关）。如果只是具有二进制响应的单个因素（即无需控制其他变量），那么进行逻辑回归的目的区别是什么？

10 logistic chi-squared logit contingency-tables

3

G检验与Pearson的卡方检验

我在列联表中测试独立性。我不知道G检验或Pearson的卡方检验是否更好。样本数量为数百，但单元格计数较低。如Wikipedia页面所述，对于G检验，卡方分布的近似值比对Pearson的卡方检验更好。但是我正在使用蒙特卡洛模拟来计算p值，所以这两个测试之间有什么区别吗？ñ× Mñ×中号N \times M

10 chi-squared p-value monte-carlo contingency-tables

2

皮尔逊的卡方统计量如何近似于卡方分布

因此，如果为表给出了Pearson的卡方统计量，则其形式为：1×N1×N1 \times N ∑i=1n(Oi−Ei)2Ei∑i=1n(Oi−Ei)2Ei\sum_{i=1}^n\frac{(O_i - E_i)^2}{E_i} 然后，当样本量变大时，它近似，即具有个自由度的卡方分布。 χ2n−1χn−12\chi_{n-1}^2n−1n−1n-1NNN 我不明白的是这种渐近近似是如何工作的。我觉得分母中的应该替换为。因为那会给您，对于。但是，当然，这具有个自由度，而不是，因此显然正在发生其他事情。EiEiE_is2inisi2ni\frac{s_i^2}{n_i}χ2n=∑ni=1Z2iχn2=∑i=1nZi2\chi_n^2 = \sum_{i=1}^nZ_i^2Zi∼n(0,1)Zi∼n(0,1)Z_i\sim n(0,1)nnnn−1n−1n-1

10 chi-squared asymptotics

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

卡方的置信区间

我正在尝试找到一种解决方案，以比较两个“拟合优度卡方”检验。更准确地说，我想比较两个独立实验的结果。在这些实验中，作者使用拟合优度卡方比较随机猜测（预期频率）与观测频率。两次实验的参与者人数相同，实验步骤相同，只是刺激改变了。这两个实验结果表明存在显着的卡方（实验1：X 2（18）＝ 45； p ＜.0005；实验2：X 2（18）＝ 79； p ＜.0001）。现在，我要做的就是测试这两个结果之间是否存在差异。我认为解决方案可能是使用置信区间，但是我不知道如何仅根据这些结果来计算这些置信区间。或者也许是一个比较效果大小的测试（科恩的w）？有人有解决办法吗？非常感谢！ FD

10 r confidence-interval chi-squared

2

卡方检验分布是否相等：它可以容忍多少个零？

我正在比较两组突变体，每组突变体只能具有21种不同表型中的一种。我想看看两组之间这些结果的分布是否相似。我找到了一个在线测试，用于计算“分布均等性的卡方检验”，并给出一些合理的结果。但是，此表中有很多零，所以在这种情况下我可以完全使用卡方吗？这是具有两组和特定表型计数的表： 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 0 1

10 distributions chi-squared contingency-tables

4

如何使用Python统计证明列是否具有分类数据

我在python中有一个数据框，我需要在其中查找所有类别变量。检查列的类型并不总是可行的，因为int类型也可以是分类的。因此，我在寻找正确的假设检验方法以识别列是否为分类方面寻求帮助。我正在尝试进行卡方检验以下的测试，但是我不确定这是否足够好 import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) 请指教。

10 hypothesis-testing categorical-data python chi-squared categorical-encoding

2

独立性测试与同质性测试

我正在教授基础统计学课程，今天我将介绍两类独立性的卡方检验和同质性检验。这两种方案在概念上是不同的，但是可以使用相同的测试统计量和分布。在同质性测试中，其中一个类别的边际总数被认为是设计本身的一部分-它们代表为每个实验组选择的主题数。但是，由于卡方检验围绕所有边际总数的条件进行，因此，对同质性检验和具有分类数据的独立性检验进行区分不会有任何数学上的影响-使用该检验时至少没有。我的问题如下：是否有任何流派的统计思想或统计方法会得出不同的分析结果，这取决于我们是在测试独立性（所有边际都是随机变量）还是在检验同质性（其中一组边际是由设计设置）？在连续的情况下，假设我们在同一主题上观察并进行独立性检验，或者观察不同人群中的并检验它们是否来自同一分布，则方法是不同的（相关性分析与t检验）。如果分类数据来自离散连续变量怎么办？独立性和同质性的检验是否应该区分开？（X，Y）(X,Y)(X,Y)（X1个，X2）(X1,X2)(X_1, X_2)

10 chi-squared independence heteroscedasticity teaching

4

在R中的逻辑回归模型上缺乏拟合度时，如何计算Pearson的检验统计量？

对于R中的逻辑回归模型（使用函数进行拟合），获得似然比（aka偏差）统计和不拟合（或拟合优）检验非常简单。容易使某些单元格计数低到足以使测试不可靠的程度。验证似然比检验是否缺乏拟合的可靠性的一种方法是将其检验统计量和P值与Pearson的卡方检验（或）缺乏拟合的检验进行比较。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 该glm对象及其summary()方法均未报告缺少拟合的Pearson卡方检验的检验统计量。在搜索中，我唯一想到的就是chisq.test()功能（在stats包装中）：其文档说“ chisq.test执行卡方列联表测试和拟合优度测试”。但是，该文档缺乏有关如何执行此类测试的信息：如果x是具有一行或一列的矩阵，或者如果x是向量y且未给出，则执行拟合优度检验（x被视为一维列联表）。的条目x必须是非负整数。在这种情况下，检验的假设是总体概率是否等于中的概率p，如果p未给出，则全部等于。我猜想您可以y将glm对象的组件用作的x参数chisq.test。但是，您不能fitted.values将glm对象的组件用作的p参数chisq.test，因为会出现错误：“ probabilities must sum to 1.” 如何（在R中）至少可以计算出缺乏拟合的Pearson测试统计量，而不必手动执行这些步骤？χ2χ2\chi^2

10 r chi-squared logistic generalized-linear-model goodness-of-fit

Questions tagged «chi-squared»