Questions tagged «mean»

随机变量的期望值;或样品的位置测量。

12
为什么95%的置信区间(CI)并不意味着95%的机会包含平均值?
似乎在这里通过各种相关问题,我们达成共识,即所谓的“ 95%置信区间”中的“ 95%”部分是指这样的事实:如果我们要多次精确地重复采样和CI计算过程, ,因此计算得出的95%的配置项将包含总体平均值。这也似乎是共识,这一定义确实不允许人们从单个95%CI得出结论,即平均值有95%的概率落在CI内。但是,我不理解前者在暗示许多95%的配置项包含总体均值的情况下并不暗示后者,就我们的不确定性而言(关于我们实际计算的配置项是否包含总体)是不是)强迫我们使用想象中的案例的基准利率(95%)作为我们对实际案例包含CI的概率的估计? 我见过一些文章按照“实际计算的CI包含总体均值或不包含总体均值,因此其概率为1或0”的论点进行争论,但这似乎暗示了对概率依赖性的奇怪定义在未知状态下(例如,一个朋友扔公平的硬币,隐藏结果,我被禁止说有50%的可能性是正面的)。 我当然错了,但是我看不出逻辑哪里出错了...

5
何时使用哪个“平均值”?
因此,我们有算术平均值(AM),几何平均值(GM)和谐波平均值(HM)。它们的数学公式以及相关的定型示例(例如,谐波均值及其在“速度”相关问题中的应用)也是众所周知的。 但是,一个始终让我着迷的问题是:“我如何确定在给定上下文中最适合使用哪种方式?” 必须至少有一些经验法则来帮助理解适用性,但是我遇到的最常见的答案是:“取决于”(但取决于什么?)。 这似乎是一个相当琐碎的问题,但是即使是高中课本也无法解释这个问题-它们仅提供数学定义! 与数学上的解释相比,我更喜欢英文的解释-简单的测试就是“您的妈妈/孩子会理解吗?”
197 mean 




3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

3
平均绝对误差或均方根误差?
为什么要使用均方根误差(RMSE)而不是均方根绝对误差(MAE)? 你好 我一直在研究在计算中产生的误差-我最初将误差计算为均方根标准化平方误差。 仔细观察,我发现平方误差的效果比较小的误差赋予更大的权重,将误差估计偏向奇异的异常值。回想起来,这是显而易见的。 所以我的问题是-在什么情况下,均方根误差比平均绝对误差更适合度量误差?后者对我来说似乎更合适,或者我缺少什么? 为了说明这一点,我在下面附加了一个示例: 散点图显示了两个具有良好相关性的变量, 右边的两个直方图使用标准化的RMSE(顶部)和MAE(底部)绘制了Y(观察到的)和Y(预测的)之间的误差。 该数据没有明显的异常值,MAE的误差低于RMSE。除了使用MAE之外,是否有任何一种合理的方法来使用一种误差度量来代替另一种误差度量?
58 least-squares  mean  rms  mae 

2
应该如何解释不同样本量的均值比较?
以网站上的书评为例。10,000人对A本书进行了评分,平均评分为4.25,方差。同样,书籍B由100个人进行评分,并且的评分为4.5 。σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 现在,由于图书A的样本量很大,“均值稳定”到4.25。现在,对于100个人来说,如果更多的人阅读B书,则平均评分可能会降至4或4.25。 一个人应该如何解释不同样本的均值比较?一个人可以/应该得出的最佳结论是什么? 例如-我们真的可以说Book B比Book A好吗?

6
亚马逊的“平均评分”会误导吗?
如果我理解正确,则图书评分为1-5的等级就是李克特分数。也就是说,对我来说3不一定代表其他人3。这是有序规模的IMO。一个不应该真正地平均序数标度,但绝对可以采用众数,中位数和百分位数。 那么,既然大部分人口比上述统计数据都了解经济手段,那么弯曲规则就可以吗?尽管研究界强烈谴责采用基于李克特量表的数据的平均值,但与大众一起这样做(实际上)是可以的吗?在这种情况下,以平均值为起点是否会产生误导? 像亚马逊这样的公司似乎不太可能迷失于基本统计数据,但是如果不是这样的话,我在这里会缺少什么呢?我们是否可以说序数标度是序数的便利近似值以证明采用均值是合理的?有什么理由?

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
从1个样本量中我们可以说总体平均值是什么?
我想知道关于人口平均值如果我只有一个测量值(样本大小为1),我们能说什么呢?显然,我们希望有更多的测量结果,但无法获得。μμ\muy1y1y_1 在我看来,由于样本均值等于,因此。但是,如果样本大小为1,则样本方差是不确定的,因此我们对使用作为的估计量的信心也是不确定的,对吗?有没有办法完全限制我们对的估计?y¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

13
为什么年龄中位数比平均年龄更好?
如果您看Wolfram Alpha 或此Wikipedia页面按中位年龄划分的国家列表 显然,就年龄而言,中位数似乎是选择的统计数据。 我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢? 最初发布在这里是因为我不知道该网站的存在。
41 mean  median 

4
分布如何具有无限的均值和方差?
如果能给出以下例子,将不胜感激: 均值和方差无限的分布。 具有无限均值和有限方差的分布。 具有有限均值和无限方差的分布。 具有有限均值和有限方差的分布。 这是因为我看到了我正在阅读,在Google谷歌搜索和阅读Wilmott论坛/网站上的主题的文章中使用的这些陌生术语(无限均值,无限方差),却没有找到足够清晰的解释。我自己的教科书中也没有找到任何解释。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.