Questions tagged «mean»

随机变量的期望值;或样品的位置测量。

4
如何计算非正态分布的置信区间?
我有383个样本的某些常用值有很大偏差,如何计算平均值的95%CI?我计算出的CI似乎相去甚远,我认为这是因为制作直方图时数据看起来不像曲线。所以我认为我必须使用类似引导程序的工具,但我对此不太了解。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

6
中位数是“均值”的某种概括的均值类型吗?
“均值”的概念远远超出了传统的算术平均值。它是否延伸到包括中位数?类推, 原始数据⟶ID原始数据⟶意思原始均值 ⟶ID− 1算术平均值原始数据⟶收据倒数 ⟶意思倒数⟶收据− 1谐波均值原始数据⟶日志日志 ⟶意思平均对数⟶日志− 1几何平均数原始数据⟶广场方格 ⟶意思均方⟶广场− 1均方根原始数据⟶秩等级 ⟶意思平均等级⟶秩− 1中位数原始数据⟶ID原始数据⟶意思原始均值⟶ID-1个算术平均值原始数据⟶收据倒数⟶意思平均倒数⟶收据-1个谐波均值原始数据⟶日志日志⟶意思平均对数⟶日志-1个几何平均数原始数据⟶广场方格⟶意思均方根⟶广场-1个均方根原始数据⟶秩等级⟶意思平均等级⟶秩-1个中位数 \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} \overset{\text{mean}}{\longrightarrow} \text{mean reciprocal} \overset{\text{recip}^{-1}}{\longrightarrow} \text{harmonic mean} \\ \text{raw data} \overset{\text{log}}{\longrightarrow} \text{logs} \overset{\text{mean}}{\longrightarrow} \text{mean log} \overset{\text{log}^{-1}}{\longrightarrow} \text{geometric mean} \\ \text{raw data} \overset{\text{square}}{\longrightarrow} \text{squares} …
20 mean  average  median 

4
计算序数变量的平均值
我在很多地方都读过,计算序数变量的平均值是不合适的。我正在尝试了解为什么可能不合适。我认为这是因为一般而言,序数变量不是正态分布的,因此计算均值将给出不正确的表示形式。有人可以给出更详细的理由来说明为什么计算序数变量的平均值可能不合适吗?

4
平均相关值
假设我测试了变量在不同实验条件下如何Y取决于变量X,并获得下图: 上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。 我想之间计算“平均相关性”(或“平均关系”)X和Y。我可以简单地取平均值r吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?R2R2R^2rR2R2R^2

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
为什么将MAE最小化会导致预测中位数而不是均值?
摘自Rob J Hyndman和George Athanasopoulos的《预测:原理和实践》教科书,特别是准确性测量部分: 最小化MAE的预测方法将导致对中位数的预测,而最小化RMSE则将导致对均值的预测 有人可以对为什么将MAE最小化导致预测中位数而不是均值给出直观的解释吗?在实践中这意味着什么? 我问一个客户:“对于您来说,使平均预测更准确或避免非常不准确的预测对您而言,更重要的是什么?” 他说,使均值预测更准确具有更高的优先级。因此,在这种情况下,我应该使用MAE还是RMSE?在阅读此引文之前,我相信MAE在这种情况下会更好。现在我怀疑。
19 forecasting  mean  median  rms  mae 

4
平均值=中位数是否意味着单峰分布是对称的?
对于单峰分布,如果均值=中值,那么说分布是对称的就足够了吗? 维基百科在平均值和中位数之间的关系中说: “如果分布是对称的,则均值等于中值,并且分布将具有零偏度。此外,如果分布是单峰的,则均值=中值=模式。这就是抛硬币或系列1,2,3,4,...,但是,请注意,相反的情况通常并不正确,即零偏度并不意味着均值等于中位数。” 但是,(对我而言)收集我需要的信息不是很简单。请帮忙。


3
中心极限定理需要大样本量的分布示例
有些书国字号30的样本规模以上是必要的中心极限定理给出很好的近似X¯X¯\bar{X}。 我知道这还不够所有发行版。 我希望看到一些分布示例,即使样本量很大(也许为100或1000,或更大),样本均值的分布仍然相当偏斜。 我知道我以前见过这样的例子,但是我不记得在哪里,也找不到它们。

3
如何计算对数正态数据集平均值的置信区间?
我在很多地方都听说过/可以通过获取每个样本的对数来将数据集转换为正态分布的东西,计算转换后的数据的置信区间,并使用逆运算将其转换回(例如,将分别提高10到下限和上限的幂)。log10log10\log_{10} 但是,我对此方法有点怀疑,仅仅是因为它不适用于平均值:10mean(log10(X))≠mean(X)10mean⁡(log10⁡(X))≠mean⁡(X)10^{\operatorname{mean}(\log_{10}(X))} \ne \operatorname{mean}(X) 正确的方法是什么?如果它对均值本身不起作用,那么如何在均值的置信区间内起作用?

4
相关性的非传递性:性别与大脑大小之间以及大脑大小与智商之间的相关性,但性别与智商之间没有相关性
我在博客上找到了以下解释,我想获得有关相关性的非传递性的更多信息: 我们有以下不争的事实: 平均而言,男性和女性的大脑容量存在差异 智商与大脑大小之间存在相关性。相关系数为0.33,因此相当于智商变异性的10% 从这些前提1和2看来,逻辑上是这样的:女性平均智商比男性低。但这是谬论!在统计中,相关性不是传递的。证明是,您只需要查看智商测试的结果,即可证明男人和女人的智商平均没有差异。 我想更深入地了解这种相关性。 如果智商与大脑大小之间的相关性是0.9(我知道不是(1)),那么推断女性平均智商比男性低会仍然是谬论吗? 拜托,我不是在这里谈论智商(以及测试的局限性),性别歧视,女性刻板印象,自大等(2)。我只想了解谬论背后的逻辑推理。 (1)据我所知并非如此:尼安德特人的大脑比智人的大脑更大,但并不聪明。 (2)我是一个女人,总的来说,我不认为自己,或者其他女人不如男人聪明,我不在乎智商测试,因为什么才是人们的价值所在,而不是基于人的价值。智力能力。 法语原文: 毫无疑问,顽固的杀手iv: 女人与女人之间的差异 气质与体积的关系 相关系数估计为0.33,对应的变量为10% 《预案》第1期和第2期,以“découlerdécouler”的形式进行质问:“ les femmes ont en moyenne un QIinférieuraux hommes”。 Mais c'est une erreur de raisonnement!从统计上看,所有关联都没有和解。拉普里夫(La Preuve),最令人心动的媒体,无意为QI进行测试的人,以及ceux-ci montrent QUE homs et des femmes nediffèrentpas en moyenne。

4
均值和中值属性
有人可以向我解释清楚将两个陈述(a)和(b)链接在一起的数学逻辑吗?让我们有一组值(一些分布)。现在, a)中位数不取决于每个值[它仅取决于一个或两个中间值];b)中位数是从中得出的最小绝对偏差之和的轨迹。 与此相反, a)(算术)均值取决于每个值;b)均值是与之最小平方和偏差的轨迹。 到目前为止,我对它的理解是直观的。

6
是否有一个示例,其中MLE产生了均值的偏差估计?
您能否提供一个偏向均值​​的MLE估计器的示例? 我不是要寻找一个通过违反规则性条件而破坏MLE估计值的示例。 我在互联网上看到的所有示例均涉及方差,但似乎找不到与均值相关的任何内容。 编辑 @MichaelHardy提供了一个示例,其中在某些建议的模型下,我们使用MLE得到均匀分布平均值的偏差估计。 然而 https://zh.wikipedia.org/wiki/Uniform_distribution_(连续)#Estimation_of_midpoint 表明MLE是平均的一致最小无偏估计,显然在另一个提出的模型。 在这一点上,对于我来说,如果MLE估计是非常假设的模型依赖的,而不是模型中立的样本均值估计器,那么对MLE估计的含义还不是很清楚。最后,我对估计总体有兴趣,并且并不真正在乎假设模型的参数估计。 编辑2 正如@ChristophHanck展示的那样,该模型带有附加信息,但引入了偏差,但未能降低MSE。 我们还有其他结果: http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf(P61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf(幻灯片2) 的http:/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf(幻灯片5) “如果存在θ的最有效的无偏估计量ˆθ(即ˆθ是无偏的,并且其方差等于CRLB),则将使用最大似然估计法进行估计。” “此外,如果一个有效的估计存在,它是ML估计”。 由于具有免费模型参数的MLE是无偏且有效的,因此根据定义,这是“最大似然估计器”吗? 编辑3 @AlecosPapadopoulos在数学论坛上有一个具有Half Normal分布的示例。 /math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao 它没有像在统一情况下那样锚定其任何参数。我想说这可以解决,尽管他还没有证明均值估计器的偏见。

2
对于什么(对称)分布,样本意味着比样本中位数更有效的估计器?
我一直认为,样本中位数比样本均值对集中趋势的度量更为可靠,因为它忽略了离群值。因此,我很惊讶地得知(在另一个问题中),对于从正态分布中抽取的样本,样本均值的方差小于样本中位数的方差(至少对于大)。nñn 我从数学上理解为什么这是真的。有没有一种“哲学的”方式看待这一点,从而有助于直觉何时使用中位数而不是其他分布的均值? 是否有数学工具可以帮助快速回答特定分布的问题?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.