Questions tagged «average»

随机变量的期望值;或样品的位置测量。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

5
我的意大利儿子即将上小学的事实是否会改变预期在班上的意大利孩子人数?
这是源于现实生活中的问题,对此我真的感到困惑。 我儿子将在伦敦上小学。由于我们是意大利人,所以我很想知道已经有多少意大利孩子上学了。我在申请时向招生官问了这个问题,她告诉我他们每班平均有2名意大利孩子(共30名)。 现在,我知道我的孩子已被接纳,但我没有其他孩子的其他信息。入学标准基于距离,但是出于这个问题的目的,我相信我们可以假设它基于大量申请人的随机分配。 我儿子的班级有望有多少意大利孩子?会接近2还是3?

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

5
“平均值”和“平均值”有什么区别?
维基百科解释: 对于数据集,平均值是值的总和除以值的数量。 但是,这个定义对应于我所谓的“平均”(至少我记得学习过)。维基百科再次引用: 还有其他一些统计方法使用的样本被某些人与平均值混淆了,包括“中位数”和“众数”。 现在这很令人困惑。“平均值”和“平均值”是否彼此不同?如果可以,怎么办?

6
中位数是“均值”的某种概括的均值类型吗?
“均值”的概念远远超出了传统的算术平均值。它是否延伸到包括中位数?类推, 原始数据⟶ID原始数据⟶意思原始均值 ⟶ID− 1算术平均值原始数据⟶收据倒数 ⟶意思倒数⟶收据− 1谐波均值原始数据⟶日志日志 ⟶意思平均对数⟶日志− 1几何平均数原始数据⟶广场方格 ⟶意思均方⟶广场− 1均方根原始数据⟶秩等级 ⟶意思平均等级⟶秩− 1中位数原始数据⟶ID原始数据⟶意思原始均值⟶ID-1个算术平均值原始数据⟶收据倒数⟶意思平均倒数⟶收据-1个谐波均值原始数据⟶日志日志⟶意思平均对数⟶日志-1个几何平均数原始数据⟶广场方格⟶意思均方根⟶广场-1个均方根原始数据⟶秩等级⟶意思平均等级⟶秩-1个中位数 \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} \overset{\text{mean}}{\longrightarrow} \text{mean reciprocal} \overset{\text{recip}^{-1}}{\longrightarrow} \text{harmonic mean} \\ \text{raw data} \overset{\text{log}}{\longrightarrow} \text{logs} \overset{\text{mean}}{\longrightarrow} \text{mean log} \overset{\text{log}^{-1}}{\longrightarrow} \text{geometric mean} \\ \text{raw data} \overset{\text{square}}{\longrightarrow} \text{squares} …
20 mean  average  median 

4
平均相关值
假设我测试了变量在不同实验条件下如何Y取决于变量X,并获得下图: 上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。 我想之间计算“平均相关性”(或“平均关系”)X和Y。我可以简单地取平均值r吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?R2R2R^2rR2R2R^2

4
泊松随机变量的四舍五入平均值的分布是什么?
如果我具有泊松分布的随机变量,参数为,则(即平均值的整数下限)?λ 1,λ 2,... ,λ Ñ ÿ = ⌊ Σ ñ 我= 1 X 我X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_nλ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor 泊松的总和也就是泊松,但我对统计数据没有足够的信心来确定上述情况是否相同。

7
中位数比平均值还公平吗?
我最近阅读了有关建议,您通常不应使用中位数来消除异常值。示例:以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 目前有16条评论: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 因为他们使用平均数,所以该文章获得4星,但是如果使用中位数,它将获得5星。 中位数不是“更公平”的法官吗? 实验表明,中位数误差始终大于平均值。中位数更糟吗? library(foreach) #the overall population of bookjudgments n<-5 p<-0.5 expected.value<-n*p …
17 mean  median  average 

6
如何检测极化的用户意见(高和低星级)
如果我有一个星级评分系统,用户可以在其中表达对某产品或某项商品的偏爱,那么我该如何统计选票是否被“高分”。意思是,即使对于给定的产品,平均值是5分之3,我如何仅使用数据(没有图形方法)如何检测到1-5拆分与共识3



1
我们什么时候使用密义数字和中间数字而不是分位数和中间数字?
我无法在Wikipedia或Wolfram Mathworld上找到密义或中间的定义,但是在Bílková,D.和Mala,I.(2012),“ 对收入分配建模时应用L-矩方法的应用 ”中给出了以下解释在捷克共和国 ”,奥地利统计杂志,第41卷第 2期,第125-132页。 中间值为(样本)的密不可分值,就像样本中位数等于样本分位数)的值一样。样品密实度以及样品分位数均基于订购的样品。首先,对有序样本中观测值的累积总和进行评估。然后,对于给定的百分比,,将零位定义为分析变量的值,该变量将有序样本中的所有观测值分为两部分:较小或相等的观测值之和为占总观测值的,大于总观测值的表示该总和的剩余。50 %p 0 &lt; p &lt; 100 p %p %(100 - p )%50%50%50\%50%50%50\%ppp0&lt;p&lt;1000&lt;p&lt;1000<p<100p%p%p\%p%p%p\%(100−p)%(100−p)%(100-p)\% 什么时候将这些用作位置度量而不是更常规的中位数或其他分位数有意义?该论文给出了一种可能的情况,即家庭收入: 从这个定义可以得出,中间收入可以用作收入水平的合理特征,因为收入较低或等于中间收入的家庭将获得样本中总收入的一半,收入较高的家庭比接受另一半的内侧 在这种情况下,发现家庭收入中位数为117,497 捷克克朗(即,有一半家庭的收入高于该水平,另一半家庭的收入高于上述水平),而家庭中位收入为133,930捷克克朗(收入高于该数字的家庭则获得了一半的收入)总收入)。请注意,这种比较并不一定反映家庭收入的偏度,甚至不一定是其不均匀性:即使家庭收入是均匀分配的,中位数仍将高于中位数。据我了解的定义,如果所有家庭都获得相同的收入,则中位数将仅等于中位数。 那么,在这种情况下,是否有任何特定的原因更喜欢内侧,或者至少将其用作辅助措施?中位数和中位数之间的比较究竟告诉我们什么?出于我刚刚指出的原因,中间似乎并不能直接与其他集中趋势指标相提并论。在其他情况下,中间/义齿是否被广泛使用或被视为特别有用?在样本研究论文中使用它们的实际例子将是非常受欢迎的,而在更广泛的背景下直观证明它们可能有用的想法会更好。 它必须要求总计和小计是有意义的-似乎与金钱有关的东西,以及“饼”的分配方式-但即使加法动作也仅对某些数量有意义。对于密集而不是广泛的属性(例如密度或温度),任何形式的求和在物理上都是没有意义的。在我看来,广泛的属性是必要的,但不足以使密宗有所帮助,因为我可以想象一位运输分析师对所运送的货物的重量有限制,因此所有货物(按重量计)的50%它承载的重量等于或大于此重量,但我无法想象生态学家会对new的长度感兴趣,以至于所有new的总长度的50%是由该长度或更长的new贡献的。

4
消除异常值的好形式?
我正在为软件构建进行统计。对于每个通过/失败和经过时间的构建,我都有数据,我们每星期生成约200个数据。 成功率很容易累计,我可以说在任何给定的一周内有45%的人通过了考试。但是我也想汇总经过的时间,并且我想确保我不会太误解数据。想通了我最好问专业人士:-) 说我有10个持续时间。它们代表通过和失败情况。一些构建会立即失败,这会使持续时间异常短。一些在测试期间挂起并最终超时,导致持续时间很长。我们会开发不同的产品,因此即使成功构建也会在90秒到4个小时之间变化。 我可能会得到这样的一套: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] 我的第一种方法是通过对集合进行排序并选择中间值来获得中值时间,在这种情况下为7812(我不理会偶数集的算术平均值)。 不幸的是,这似乎产生了很多差异,因为我只挑选了一个给定的值。因此,如果我趋向于此值,则取决于哪个构建在中间,它会在5000-10000秒之间反弹。 为了解决这个问题,我尝试了另一种方法-移除异常值,然后对剩余值进行均值计算。我决定将其拆分为三分位数,并且仅在中间的一个上工作: [50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] -&gt; [50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] -&gt; [3014, 7812, 8378, 8993] 在我看来,这看起来更好的原因有两个: 我们不希望对更快的构建采取任何措施,它们已经可以了 最长的构建可能是超时引起的,并且将始终存在。我们还有其他机制可以检测到这些 因此在我看来,这就是我要寻找的数据,但我担心通过消除真实性来实现平滑性。 这有争议吗?方法理智吗? 谢谢!

2
IQR检测异常值的准确性如何
我正在编写一个分析进程运行时间的脚本。我不确定它们的分布情况,但是我想知道某个进程是否运行“过长”。到目前为止,我一直在使用上次运行时间的3个标准差(n&gt; 30),但有人告诉我,如果数据不正常(看起来好像不是),这将无法提供任何有用的信息。我发现另一个异常测试指出: 找到四分位数间距,即IQR = Q3-Q1,其中Q3是第三个四分位数,而Q1是第一个四分位数。然后找到这两个数字: a)Q1-1.5 * IQR b)Q3 + 1.5 * IQR 如果&lt;a或&gt; b,则该点是异常值 我的数据通常是2sec,3sec,2sec,5sec,300sec,4sec等。其中300sec显然是一个异常值。 哪种方法更好?IQR方法还是std偏差方法?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.