Questions tagged «descriptive-statistics»

描述性统计总结了样本的特征,例如均值和标准差,中位数和四分位数,最大值和最小值。具有多个变量,可能包括相关性和交叉表。可以包括视觉显示-箱线图,直方图,散点图等。

5
标准化和标准化之间有什么区别?
在工作中,我们正在讨论此问题,因为我的老板从未听说过标准化。在线性代数中,归一化似乎是指矢量除以其长度。在统计中,标准化似乎是指减去均值再除以其SD。但是它们似乎也可以与其他可能性互换。 创建某种通用分数时,它由不同的指标组成,它们具有不同的平均值和不同的SD,您是否会进行标准化,标准化或其他?有人告诉我,这只是采取每个指标并将其分别除以SD的问题。然后将两者相加。这将导致可用于判断两个指标的通用评分。222 例如,假设您有乘地铁上班的人数(在纽约市)和有开车上班的人数(在纽约市)。 车⟶ ÿ火车⟶ XTrain⟶x\text{Train} \longrightarrow x 汽车⟶ ÿCar⟶y\text{Car} \longrightarrow y 如果您想创建一个通用分数来快速报告交通波动,则不能只添加和因为会有更多的人乘坐火车。纽约有800万人居住,还有游客。每天有数百万人乘火车,数十万人乘汽车。因此,需要将它们转换为相似的规模才能进行比较。均值(y )均值(x )mean(x)\text{mean}(x)平均(ÿ)mean(y)\text{mean}(y) 如果均值(x )= 8 ,000 ,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 和平均(ÿ) = 800 ,000mean(y)=800,000\text{mean}(y) = 800,000 您可以将&归一化然后求和吗?您会标准化和然后求和吗?还是将它们除以各自的SD然后求和?为了得到一个数字,当波动时,表示总流量波动。y x yXxxÿyyXxxÿyy 任何供参考的文章或章节,将不胜感激。谢谢! 这也是我正在尝试做的另一个例子。 假设您是一名大学院长,并且您正在讨论入学要求。您可能希望学生具有至少一定的GPA和一定的考试分数。如果两者的规模相同,那就太好了,因为您可以将两者加在一起,然后说:“至少7.0的任何人都可以被录取。” 这样,如果一个预期的学生的GPA为4.0,他们可能会低至3.0的测试分数并仍然被录取。相反,如果某人的GPA为3.0,则仍然可以以4.0的测试分数被录取。 但这不是那样。ACT是36分制,大多数GPA是4.0(有些是4.3,很烦)。由于我不能仅仅添加ACT和GPA来获得某种通用分数,因此我该如何对其进行转换以便将它们添加进去,从而创建通用分数。然后作为院长,我可以自动接受分数超过特定阈值的任何人。甚至自动接受分数在前95%以内的所有人。 可以归一化吗?标准化?或只是将它们除以SD然后求和?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
如何“求和”标准偏差?
我有一个值的每月平均值,以及与该平均值相对应的标准偏差。我现在将年度平均值计算为每月平均值的总和,如何表示总平均值的标准偏差? 例如,考虑风电场的输出: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 可以说,风电场平均每年生产10,358 MWh,但是与该数字相对应的标准偏差是多少?




5
连续变量和分类(标称)变量之间的相关性
我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。ρρ\rho 在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?ρρ\rho 双峰系数会是正确的选择吗?

3
均值,中位数和众数之间的经验关系
对于中等偏斜的单峰分布,我们在均值,中位数和众数之间具有以下经验关系: 这种关系如何派生出来的?(平均数-模式)〜3(平均-中位数)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} 在形成这个结论之前,卡尔·皮尔森(Karl Pearson)是否绘制了成千上万个这样的关系,还是在这种关系背后有逻辑上的推理?

8
R中的图形数据概述(摘要)功能
我敢肯定我以前在R包中遇到过这样的函数,但是经过广泛的谷歌搜索之后,我似乎找不到任何地方。我正在考虑的功能为给它的变量生成了图形摘要,并生成了带有一些图形(直方图,也许还有盒子和晶须图)的输出,还有一些文本给出了平均值,SD等详细信息。 我很确定此函数未包含在基本R中,但是我似乎找不到我使用的软件包。 有谁知道这样的功能,如果知道,它在哪个包中?

6
为什么协方差估计量的分母不应该是n-2而不是n-1?
(无偏)方差估计量的分母为因为有观测值,并且仅估计了一个参数。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同样,我想知道为什么在估计两个参数时协方差的分母为何不为?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
如何解释变异系数?
我试图了解变化系数。当我尝试将其应用于以下两个数据样本时,我无法理解如何解释结果。 假设样本1为 ,样本2为。如您所见,这里的样本2样本1。10 ,15 ,17 ,22 ,21 ,27 = + 100 ,5 ,7 ,12 ,11 ,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27}===+ 10+ 10+\ 10 两者具有相同的标准偏差但和。μ 2 = 18.67 μ 1 = 8.66667σ2=σ1=5.95539σ2=σ1个=5.95539\sigma_{2} = \sigma_{1}= 5.95539μ2=18.67μ2=18.67\mu_{2}=18.67μ1=8.66667μ1个=8.66667\mu_{1}=8.66667 现在,变异系数将有所不同。对于样本2,它将小于样本1。但是,我如何解释该结果?就方差而言,两者是相同的;只是他们的手段不同。那么,这里的变异系数有什么用呢?这只是在误导我,或者也许我无法解释结果。σ/ μσ/μ{\sigma}/{\mu}

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
变异与变异相同吗?
这是我在此处进行交叉验证的第一个问题,所以即使看起来很琐碎,也请帮我:-)首先,这个问题可能是语言差异的结果,或者可能是我在统计上确实有缺陷。不过,这里是: 在人口统计中,变异和方差是相同的术语吗?如果没有,两者之间有什么区别? 我知道方差是标准差的平方。我也知道这是衡量数据稀疏程度的一种方法,并且我知道如何计算数据。 但是,我一直在遵循名为“模型思维”的Coursera.org课程,并且讲师清楚地描述了差异,但始终称其为差异。那让我有些困惑。 公平地说,他总是谈论计算种群中某些特定实例的变异。 有人可以告诉我它们是否可以互换,或者我想念什么吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.