Questions tagged «proportion»

比例是某种总数中属于特定种类的分数,或者(i)作为总数中一种类型的事物的计数,或者(ii)作为连续变量的组成部分。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
卡方检验和等比例检验之间的关系是什么?
假设我有三个具有四个互斥特征的人口。我从每个总体中随机抽取样本,并针对我要测量的特征构建交叉表或频率表。我的说法是否正确: 如果我想测试总体与特征之间是否存在任何关系(例如,一个总体是否具有较高的特征之一频率),我应该进行卡方检验,看看结果是否显着。 如果卡方检验显着,则仅表明人口与特征之间存在某种关系,而没有关系。 此外,并非所有特征都需要与人口有关。例如,如果不同的总体具有特征A和B的显着不同的分布,但没有特征C和D的分布,则卡方检验可能仍然具有显着性。 如果我想衡量一个特定的特性是否受影响人口,那么我可以运行相同比例的测试(我已经看到了这个被称为Z测试,或prop.test()在R)在这一点特点。 换句话说,prop.test()当卡方检验表明存在显着关系时,使用来更准确地确定两组类别之间关系的性质是否合适?

4
在R中确定两个样本比例二项式检验(以及一些奇怪的p值)
我正在尝试解决以下问题: 玩家A在25场比赛中赢得17场比赛,而玩家B在20场比赛中赢得8场比赛-两种比率之间是否有显着差异? 在R中想到的事情如下: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 因此,该测试表明,在95%的置信水平下,差异并不显着。 因为我们知道那prop.test()仅是使用近似值,所以我想通过使用精确的二项式检验使事情更精确-并且我同时采用了两种方法: > …

6
平均值悖论-这叫什么?
我有一个数据集。说出观察值和变量:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 假设有客户在每个类别中购买了()或没有()。那里有个,因此这客户平均购买产品类别。10101010A, B, C1616161010101.61.61.6 请注意,客户可以购买A,B和C中的多个。 如果仅查看购买者A,则有客户购买了产品类别,因此平均为。5559991.81.81.8 …

3
安全地确定A / B测试的样本量
我是一位寻求构建A / B测试工具的软件工程师。我没有扎实的统计背景,但最近几天一直在做大量阅读工作。 我将遵循此处描述的方法,并在下面总结相关要点。 该工具将使设计人员和领域专家可以配置网站,以将在特定URL处接收到的流量划分为两个或多个URL。例如,可以在http://example.com/hello1和http://example.com/hello2之间分配到达http://example.com/hello1的流量。流量将在目标URL之间平均分配,并且将比较每个目标URL上的营销过程的性能。 在此实验中,样本大小N将对应于访问者。该测试将衡量“转化”,该术语描述访问者何时在营销过程中采取特定行动。转化率以百分比表示,并且期望更高的转化率。这使测试成为独立比例的比较。该工具需要能够容易地用于产生安全结果的测试。选择适当的值N很重要。 在上面的链接文章中,采用两个独立比例的幂分析来查找N。这种方法需要事先知道控件的转换率,并指定目标所需的转换改进。它还指定了95%的显着性水平和80%的统计功效。 问题: 这是确定N声音的方法吗?如果是这样,在开始测试之前确定对照转化率的最安全方法是什么? 有没有确定N不需要预先知道控件转换率的合理方法? 链接文章中的方法是否合理?如果没有,您是否可以将我链接到任何可访问且易于消化的方法?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
在什么级别上,检验在数学上与比例的检验相同?
背景:请安全跳过-在此仅供参考,并将问题合法化。 本文开头为: “卡尔·皮尔森(Karl Pearson)著名的卡方偶发性测验是基于正态分布,从另一个称为z统计量的统计量得出的。的最简单版本可以证明在数学上等同于等效z检验。在所有情况下,结果都是相同的。对于所有意图和目的,“卡方”都可以称为“ z平方”。一个自由度的的临界值是z的相应临界值的平方。χ2χ2\chi^2χ2χ2\chi^2 这已在CV中多次声明(此处,此处,此处及其他)。 而事实上,我们可以证明该相当于与:χ21dfχ1df2\chi^2_{1\,df}X2X2X^2X∼N(0,1)X∼N(0,1)X\sim N(0,1) 假设且并使用cdf方法求出的密度:X∼N(0,1)X∼N(0,1)X \sim N(0,1)Y=X2Y=X2Y=X^2YYYcdfcdfcdf p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})。问题是我们不能以正态分布的密度紧密结合。但是我们可以表达它: FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).取导数: fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. 由于普通pdf的值pdfpdfpdf是对称的: fX(y)=F′X(y√)1y√fX(y)=FX′(y)1y f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}。这等同于pdfpdfpdf正常的(即现在的xxx在pdfpdfpdf将y√y\sqrt{y},以被插入到e−x22e−x22e^{-\frac{x^2}{2}}正常的一部分pdfpdfpdf); 并记住最后要包含1y√1y\frac{1}{\sqrt{y}}: fX(y)=F′X(y√)1y√=12π−−√e−y21y√=12π−−√e−y2y12−1fX(y)=FX′(y)1y=12πe−y21y=12πe−y2y12−1 f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1} 与卡方的pdf相比: fX(x)=12ν/2Γ(ν2)e−x2xν2−1fX(x)=12ν/2Γ(ν2)e−x2xν2−1 f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1} 由于,对于 df,我们精确地得出了卡方的。 …

5
卡方可以用来比较比例吗?
我已经读过,卡方检验对于查看样本是否与一组预期值显着不同很有用。 例如,这是有关人们最喜欢的颜色的调查结果表(总共n = 15 + 13 + 10 + 17 + 55 = 55): red,blue,green,yellow 15,13,10,17 卡方检验可以告诉我该样本是否与人们喜欢每种颜色的概率相同的零假设显着不同。 问题:可以对喜欢某种颜色的总受访者的比例进行测试吗?如下所示: red,blue,green,yellow 0.273,0.236,0.182,0.309 当然,这里0.273 + 0.236 + 0.182 + 0.309 = 1。 如果在这种情况下不适合使用卡方检验,那将是什么检验?谢谢! 编辑:我在下面尝试了@RomanLuštrik的答案,并得到以下输出,为什么我没有得到p值,为什么R说“卡方近似可能不正确”? > chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared test for given probabilities data: c(0, 0, 0, 8, 6, 2, 0, 0) X-squared …

1
线性回归中作为独立变量求和的解释比例
我熟悉分类变量的概念以及相应的伪变量编码,这些编码使我们能够将一个级别作为基线来避免共线性。我还熟悉如何从此类模型解释参数估计值:相对于基线类别,对于给定拟合类别的预测变量,结果的预测变化。 我不确定的是如何解释一组独立的变量,这些变量之和等于一个。如果我们将所有比例都拟合到模型中,我们将再次具有共线性,因此,我们大概必须将一类作为基线。我还假设我将使用III型SS对该变量的重要性进行整体测试。但是,我们如何解释模型中相对于基线的那些水平的参数估计呢? 一个示例:在邮政编码级别,自变量是变质岩,火成岩和沉积岩的比例。如您所知,这是三种主要的岩石类型,所有岩石都被分类为其中一种。这样,所有这三个部分的比例之和为1。结果是各个邮政编码中的平均ra水平。 例如,如果要拟合变质和火成岩比例作为模型中的预测因子,而以沉积物为基线,则通过对两个拟合水平的整体III型SS F-测试可以表明岩石类型总体上是否重要结果的预测因子(平均ra水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。 但是,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(摇滚类型)之间结果的预期变化,而且我不知道如何将它们按比例拟合这一事实纳入其中。 如果的变质估计值为例如0.43,则说明的不是简单的解释,即当岩石变质而沉积时,预测的平均the水平增加了0.43个单位。但是,这种解释也不只是简单地解释了变质岩类型比例的某种单位增加(例如0.1),因为这并没有反映出它也相对于基线(沉积物)以及变化的事实。变质的比例从本质上改变了火成岩模型中其他岩石水平拟合的比例。ββ\beta 有没有人提供提供这种模型的解释的资源,或者如果没有,您可以在这里提供一个简短的示例吗?

1
“计数比例”和“连续比例”有什么区别?
在对另一个问题的评论中,要求澄清所讨论的主题是“计数比例”还是“连续比例”,并且后续调查表明差异是关键信息(逻辑/二项式与beta回归主题)。 两者之间的区别是什么,区别在哪里重要?使用“计数比例”与使用“连续比例”时要记住的重要事项是什么?

2
使用lm进行2样本比例测试
我一直在使用线性模型执行2样本比例测试,但是已经意识到这可能并不完全正确。看来,使用具有二项式族+身份链接的广义线性模型可以准确给出未汇集的2样本比例测试结果。但是,使用线性模型(或带有高斯族的glm)得出的结果略有不同。我认为这可能是由于R如何解决二项式和高斯族的glm,但是还有其他原因吗? ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) set.seed(12345) ## set up dataframe ------------------------- n_A <- 5000 n_B <- 5000 outcome <- rbinom( n = n_A + n_B, …

1
当比例是自变量时,转换比例的最合适方法是什么?
我以为我理解了这个问题,但是现在我不太确定,我想在继续之前先与其他人核实。 我有两个变量,X和Y。Y是一个比率,并且不受0和1的限制,并且通常呈正态分布。X是一个比例,以0和1为界(从0.0到0.6)。当我运行的线性回归时Y ~ X,我发现,它们X与Y线性关系显着。到现在为止还挺好。 但是后来我进一步调查,开始认为也许X和Y的关系可能比线性关系更曲线。对我来说,它看起来像的关系X,并Y可能接近Y ~ log(X),Y ~ sqrt(X)或者Y ~ X + X^2,或者类似的东西。我有经验上的理由认为该关系可能是曲线关系,但没有理由假设任何一种非线性关系都可能比其他任何一种更好。 我从这里有几个相关的问题。首先,我的X变量采用四个值:0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时,这些值之间的间距会失真,因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式,这就是我想要的吗?我认为不是,因为根据接受的失真程度,我得到的结果非常不同。如果这不是我想要的,应该如何避免? 其次,要对这些数据进行对数转换,我必须在每个X值上加上一些数量,因为您不能采用0的对数。当我增加非常小的数量(例如0.001)时,我会得到非常大的失真。当我添加较大的数量(例如1)时,失真很小。是否有“正确的”数量要添加到X变量中?还是在变量中添加任何内容以X替代选择替代转换(例如,立方根)或模型(例如,逻辑回归)是否不合适? 在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户,此代码将创建一些结构类似于我的数据。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) plot(Y~X)

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
非数学家的Clopper-Pearson
我想知道是否有人可以向我解释Clopper-Pearson CI之外的直觉。 据我所知,每个配置项都包含一个差异。但是,对于比例,即使我的比例是0或1(0%或100%),也可以计算Clopper-Pearson CI。我尝试查看这些公式,但我知道它具有二项式分布的百分位数,而且我知道查找CI涉及迭代,但是我想知道是否有人可以用“简单的单词”或最少的数学来解释逻辑和有理数?

2
该 -test VS的 -试验比较2组患感冒的几率
我刚刚读了一篇颇受人尊敬的(受欢迎的)科学杂志(德国PM,02/2013,第36页),其中讲述了一个有趣的实验(不幸的是,没有资料来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但是所提供的信息足以重现统计检验。 研究人员想知道,在寒冷的天气中变冷是否会增加患感冒的几率。因此,他们将180名学生随机分为两组。一组不得不将脚放进冷水中20分钟。另一个人穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为很有趣。除了道德问题。 无论如何,经过5天的治疗,治疗组中的13名学生患了感冒,但只有5名学生保持着鞋凉。因此,该实验的优势比为2.87。 鉴于样本量很小,我开始怀疑这种差异是否可能很大。所以我进行了两次测试。 首先,使用正态逼近对比例相等进行简单测试。该测试的,。我的猜测是,这就是研究人员测试过的。这确实很重要。但是,由于正态近似,如果没有记错的话,此z检验仅在大样本中有效。此外,患病率还很小,我想知道这是否不会影响效果置信区间的覆盖率。p = 0.0468z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 因此,我的第二次尝试是对卡塔尔独立性进行卡方检验,包括蒙特卡罗模拟和标准皮尔逊卡方。在这里,我发现p值都约为。p=.082p=.082p=.082 现在,所有这些都不会让您对结果感到放心。我想知道是否有更多选择来测试此数据,以及您对这两项测试的想法是什么(特别是第一个重要测试的假设)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.