Questions tagged «mean»

随机变量的期望值;或样品的位置测量。

2
单边切比雪夫不等式的样本版本是否存在?
我对以下单方面的Cantelli版本的Chebyshev不等式感兴趣: P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2。 \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 基本上,如果您知道总体均值和方差,则可以计算观察到某个值的概率的上限。(至少这是我的理解。) 但是,我想使用样本均值和样本方差,而不是实际总体均值和方差。 我猜想,由于这会带来更多不确定性,因此上限会增加。 是否存在类似于上述的不等式,但是使用样本均值和方差? 编辑:Chebyshev不等式(不是单面)的“样本”类似物,已经制定出来。在维基百科页面有一些细节。但是,我不确定它将如何转化为我上面提到的单面案例。

4
Winsorizing与Triming数据的相对优点是什么?
Winsorizing数据意味着用两端的某个百分位值替换数据集的极值,而Trimming或截断涉及删除这些极值。 我总是将讨论的两种方法视为在计算诸如均值或标准差之类的统计数据时减轻异常值影响的可行选择,但我还没有看到为什么一个人可能会选择另一个。 使用Winsorizing或Trimming有什么相对优点或缺点?在某些情况下,最好使用一种方法吗?在实践中是否经常使用一种或它们基本上可以互换?

8
用均值替换离群值
我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。 问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?

5
“平均值”和“平均值”有什么区别?
维基百科解释: 对于数据集,平均值是值的总和除以值的数量。 但是,这个定义对应于我所谓的“平均”(至少我记得学习过)。维基百科再次引用: 还有其他一些统计方法使用的样本被某些人与平均值混淆了,包括“中位数”和“众数”。 现在这很令人困惑。“平均值”和“平均值”是否彼此不同?如果可以,怎么办?

2
偏态分布的均值是否存在可靠的非参数置信区间?
极偏斜的分布(例如对数正态分布)不会导致准确的引导置信区间。这是一个示例,说明无论您在R中尝试哪种引导方法,左右尾部区域都离理想的0.025较远: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

10
回归均值vs赌徒的谬误
一方面,我具有对均值的回归,另一方面,我具有赌徒的谬误。 Miller和Sanjurjo(2019)将赌徒的谬误定义为“错误地认为随机序列具有系统性的逆转趋势,即类似结果的条纹更有可能结束而不是持续。”例如,一枚掉头的硬币在下一次审判中,连续几次被认为很有可能落伍。 根据上次的平均值回归,我在上一场比赛中表现不错,而在下一场比赛中,我的表现可能会更差。 但是根据赌徒的谬误:假设硬币是公平的,请考虑以下两个概率 20头的概率,然后1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20头的概率,则1头= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 然后... 考虑一个简单的例子:一类学生对一个主题进行100项对/错测试。假设所有学生在所有问题上随机选择。然后,每个学生的分数将是一组独立且均匀分布的随机变量中的一个的实现,预期均值为50。 自然,偶然地,有些学生的分数将大大高于50,而有些分数将大大低于50。如果一个人只拿得分最高的10%的学生,然后再给他们第二次测试,然后他们再次在所有项目上随机选择,那么平均得分将再次接近50。 因此,这些学生的均值将一直“回归”到所有参加原始考试的学生的均值。无论学生在原始考试中得分是多少,他们在第二项考试中得分的最佳预测是50。 特殊情况下,如果只拿得分最高的10%的学生,然后再给他们第二次测试,然后他们再次在所有项目上随机选择,则平均得分将再次接近50。 根据赌徒的谬论,难道不应该期望得分的可能性相同,而不一定要接近50吗? Miller,JB和Sanjurjo,A.(2019)。当样本量被忽略时,经验如何确定赌徒的谬误。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
寻找质心与寻找均值有何不同?
在执行分层聚类时,可以使用许多指标来度量聚类之间的距离。两个这样的度量标准意味着计算聚类中的质心和数据点的平均值。 均值和质心有什么区别?这些不是集群中的同一点吗?
26 clustering  mean 

3
如何计算两个法线均值之比的置信区间
我想为两个均值之比得出置信区间的限制。 假设和 是独立的,平均比。我试图解决: 但在许多情况下(无根)无法求解该方程式。难道我做错了什么?有没有更好的方法?谢谢X 1〜Ñ (θ 1,σ 2)X 2〜Ñ (θ 2,σ 2)Γ = θ 1 / θ 2镨(- Ž (α / 2 ))≤ X 1 - Γ X 2 / σ √100 (1 - α )%100(1−α)%100(1-\alpha)\%X1个〜ñ(θ1个,σ2)X1∼N(θ1,σ2)X_1 \sim N(\theta_1, \sigma^2)X2〜ñ(θ2,σ2)X2∼N(θ2,σ2)X_2 \sim N(\theta_2, \sigma^2)Γ = θ1个/ θ2Γ=θ1/θ2\Gamma = \theta_1/\theta_2PR (- ž(α / …

3
当算术平均值非常接近几何平均值时,可以对数据得出什么结论?
几何平均值和算术平均值相差很远,例如〜0.1%,有什么重要意义吗?对于这样的数据集可以做出什么推测? 我一直在分析数据集,但我发现具有讽刺意味的是,这些值非常非常接近。不精确,但接近。此外,对算术平均数几何平均数不等式的快速理智检查以及对数据采集的回顾显示,就我如何得出这些值而言,我的数据集的完整性没有任何困扰。

4
如何判断我的数据分布是否对称?
我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。 (如果您对此软件有任何具体建议,我正在使用Minitab。)

4
为什么在不同样本中均值趋于比中位数更稳定?
安迪·菲尔兹(Andy Fields)等人在使用R发现统计信息的第1.7.2节中列出了均值与中位数的优点,同时指出: ...平均值在不同样本中趋于稳定。 在解释了中位数的许多优点之后,例如 ...中位数不受分布两端的极端得分的影响... 鉴于中位数相对不受极端得分的影响,我认为它在各个样本中都更加稳定。因此,我对作者的主张感到困惑。为了确认我进行了模拟,我生成了1M个随机数,并采样了100个数字1000次,计算了每个样本的均值和中位数,然后计算了这些样本均值和中位数的sd。 nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) } sd(means) >> [1] 0.0984519 sd(medians) >> [1] 0.1266079 p1 <- hist(means, col=rgb(0, …
22 mean  median 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.