Questions tagged «z-test»

z检验是用于假设检验的统计检验,该检验使用标准正态分布作为检验统计量的抽样分布。一个常见的例子是检验两个比例的差异。

2
卡方检验和等比例检验之间的关系是什么?
假设我有三个具有四个互斥特征的人口。我从每个总体中随机抽取样本,并针对我要测量的特征构建交叉表或频率表。我的说法是否正确: 如果我想测试总体与特征之间是否存在任何关系(例如,一个总体是否具有较高的特征之一频率),我应该进行卡方检验,看看结果是否显着。 如果卡方检验显着,则仅表明人口与特征之间存在某种关系,而没有关系。 此外,并非所有特征都需要与人口有关。例如,如果不同的总体具有特征A和B的显着不同的分布,但没有特征C和D的分布,则卡方检验可能仍然具有显着性。 如果我想衡量一个特定的特性是否受影响人口,那么我可以运行相同比例的测试(我已经看到了这个被称为Z测试,或prop.test()在R)在这一点特点。 换句话说,prop.test()当卡方检验表明存在显着关系时,使用来更准确地确定两组类别之间关系的性质是否合适?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
在检验和检验之间选择
背景:我正在向工作中的同事进行假设检验的介绍,并且对它的大部分内容都了解得很好,但是有一个方面是我将自己束之高阁,试图理解并向他人解释。 这就是我想知道的(如果错误,请更正!) 如果方差已知,则统计量将是正常的;如果方差未知,则遵循分布ttt CLT(中心极限定理):样本平均值的采样分布对于足够大的大约是(对于高度偏斜的分布,可能是,最大可能是)nnn303030300300300 该 -配送可以认为是正常的自由度ttt&gt;30&gt;30> 30 如果满足以下条件,则使用 -test:zzz 已知总体正态和方差(对于任何样本量) 总体正常,方差未知且(由于CLT)n&gt;30n&gt;30n>30 人口二项式,,np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 如果满足以下条件,则使用检验:ttt 总体正常,方差未知,n&lt;30n&lt;30n<30 不了解总体或方差且,但样本数据看起来正常/通过测试等,因此可以认为总体正常n&lt;30n&lt;30n<30 所以我剩下: 对于样本和(?),不知道有关总体和方差的已知/未知信息。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 所以我的问题是: 当抽样分布看起来非正态时,您可以假设在什么样本量下(对总体分布或方差一无所知)均值的抽样分布是正态的(即CLT已经加入)?我知道有些发行版需要,但是有些资源似乎说每当时就使用 -test 。n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 对于我不确定的情况,我想我看一下数据是否正常。现在,如果样本数据看起来正常,我是否应该使用 -test(因为假设总体正常,并且因为)?zzzn&gt;30n&gt;30n>30 我不确定的案例样本数据在哪里看起来不正常呢?在任何情况下,您仍然会使用检验或检验,还是总是希望转换/使用非参数检验?我知道,由于CLT,在的某个值处,均值的采样分布将近似于正态,但是样本数据不会告诉我值是多少。样本数据可能是非正态的,而样本均值遵循正态/。在某些情况下,您会进行转换/使用非参数检验,而实际上均值的采样分布是正态/但您无法分辨吗? tttzzznnnnnntttttt

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata &lt;- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] &lt;- "no" mydata$admit_factor[mydata$admit==1] &lt;- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl &lt;- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid &lt;- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
在什么级别上,检验在数学上与比例的检验相同?
背景:请安全跳过-在此仅供参考,并将问题合法化。 本文开头为: “卡尔·皮尔森(Karl Pearson)著名的卡方偶发性测验是基于正态分布,从另一个称为z统计量的统计量得出的。的最简单版本可以证明在数学上等同于等效z检验。在所有情况下,结果都是相同的。对于所有意图和目的,“卡方”都可以称为“ z平方”。一个自由度的的临界值是z的相应临界值的平方。χ2χ2\chi^2χ2χ2\chi^2 这已在CV中多次声明(此处,此处,此处及其他)。 而事实上,我们可以证明该相当于与:χ21dfχ1df2\chi^2_{1\,df}X2X2X^2X∼N(0,1)X∼N(0,1)X\sim N(0,1) 假设且并使用cdf方法求出的密度:X∼N(0,1)X∼N(0,1)X \sim N(0,1)Y=X2Y=X2Y=X^2YYYcdfcdfcdf p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})。问题是我们不能以正态分布的密度紧密结合。但是我们可以表达它: FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).取导数: fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. 由于普通pdf的值pdfpdfpdf是对称的: fX(y)=F′X(y√)1y√fX(y)=FX′(y)1y f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}。这等同于pdfpdfpdf正常的(即现在的xxx在pdfpdfpdf将y√y\sqrt{y},以被插入到e−x22e−x22e^{-\frac{x^2}{2}}正常的一部分pdfpdfpdf); 并记住最后要包含1y√1y\frac{1}{\sqrt{y}}: fX(y)=F′X(y√)1y√=12π−−√e−y21y√=12π−−√e−y2y12−1fX(y)=FX′(y)1y=12πe−y21y=12πe−y2y12−1 f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1} 与卡方的pdf相比: fX(x)=12ν/2Γ(ν2)e−x2xν2−1fX(x)=12ν/2Γ(ν2)e−x2xν2−1 f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1} 由于,对于 df,我们精确地得出了卡方的。 …

2
独立样本t检验:真的需要对大样本数据进行正态分布吗?
假设我要测试两个独立样本是否具有不同的均值。我知道基础分布不正常。 如果我理解正确,则我的检验统计量就是平均值,并且对于足够大的样本量,即使没有样本,平均值也应呈正态分布。因此,在这种情况下,参数显着性检验应该有效,对吗?我已阅读了与此相关的令人困惑和令人困惑的信息,因此,我希望获得一些确认(或解释我错了的原因)。 另外,我已经读过,对于大样本量,我应该使用z统计量而不是t统计量。但是实际上,t分布将收敛于正态分布,并且两个统计量应该相同,不是吗? 编辑:以下是一些描述z检验的资料。他们都声明必须按正态分布人口: 在这里,它说:“无论使用哪种Z检验,都假定抽取样本的总体是正常的。” 而在这里,对于Z测试的要求,被列为“两正态分布,但独立的群体,σ被称为”。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds &lt;- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
似然比检验和Wald检验为R中的glm提供了不同的结论
我正在从通用模型,线性模型和混合模型复制示例。我的MWE如下: Dilution &lt;- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates &lt;- rep(x=5, times=10) NoPositive &lt;- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data &lt;- data.frame(Dilution, NoofPlates, NoPositive) fm1 &lt;- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) 输出量 Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family = binomial("logit"), …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.