Questions tagged «mean»

随机变量的期望值;或样品的位置测量。

1
使用中位数计算方差
我有一个一维随机变量,它非常偏斜。为了规范化此分布,我想使用中位数而不是均值。我的问题是:我可以使用公式中的中位数而不是均值来计算分布的方差吗? 即我可以更换 Var(X)=∑[(Xi−mean(X))2]/nVar(X)=∑[(Xi−mean(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{mean}(X))^2]/n 与 Var(X)=∑[(Xi−median(X))2]/nVar(X)=∑[(Xi−median(X))2]/n \mathrm{Var}(X) = \sum[(X_i - \mathrm{median}(X))^2]/n 我这样做的理由是,由于方差是衡量分布的趋势,而分布是集中分布的主要趋势,所以这不应该成为问题,但我正在寻找验证这种逻辑的方法。
10 variance  mean  median 

1
测试夏普比率的重要性
测试夏普比率或信息比率的重要性的正确方法是什么?夏普比率将基于各种股指,并且可能具有可变的回溯期。 我看到的一种解决方案只是应用了学生t检验,而df设置为回溯期的长度。 由于以下原因,我不愿采用上述方法: 我认为t检验对偏斜敏感,但是股本收益通常会产生负偏斜。 使用对数收益计算的平均收益小于使用简单收益计算的平均收益。我认为,与基于对数收益的夏普比率相比,基于收益的简单夏普比率更有可能被注册为重要资产,但是底层资产收益在技术上是相同的。 如果回溯期很小(即样本量很小),则t检验可能是适当的,但是使用其他检验在什么阈值下有意义? 我的第一个倾向是避免使用学生t分布,而是创建一个基于非对称配电,我已经测试读取已被证明是股市回报的一个非常接近的近似,允许在峰度和偏度控制。 我的第二个倾向是看非参数测试,但是由于使用经验有限,我不确定从哪里开始以及应该避免的陷阱。 我是否在考虑这个问题,是否与我的担忧无关?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
平均绝对偏差是否小于标准偏差?
我想用这种定义将一般情况下的平均绝对偏差与标准偏差进行比较: MAD=1n−1∑1n|xi−μ|,SD=∑n1(xi−μ)2n−1−−−−−−−−−−−√MAD=1n−1∑1n|xi−μ|,SD=∑1n(xi−μ)2n−1MAD = \frac{1}{n-1}\sum_1^n|x_i - \mu|, \qquad SD = \sqrt{\frac{\sum_1^n(x_i-\mu)^2}{n-1}} 其中。μ=1n∑n1xiμ=1n∑1nxi\mu =\frac{1}{n}\sum_1^n x_i 每个是否正确?MAD≤SDMAD≤SDMAD \le SD{xi}n1{xi}1n\{x_i\}^n_1 它的虚假为,becouse,对于每个。n=2n=2n=2x+y≥x2+y2−−−−−−√x+y≥x2+y2x+y \ge \sqrt{x^2+y^2}x,y≥0x,y≥0x, y \ge 0 很容易证明: MAD≤nn−1−−−−−√×SDMAD≤nn−1×SDMAD \le \sqrt{\frac{n}{n-1}} \times SD

2
是否允许对数据集使用平均值来改善相关性?
我有一个具有因变量和自变量的数据集。两者都不是时间序列。我有120个观察结果。相关系数为0.43 经过此计算后,我为两个变量添加了一个列,每12个观察值的平均值,结果得到2个新列,包含108个观察值(对)。这些列的相关系数为0.77 看来我以这种方式改善了相关性。可以这样做吗?我是否通过使用平均值提高了自变量的解释能力?

2
使用SVM时,为什么需要缩放功能?
根据scikit-learn中StandardScaler对象的文档: 例如,学习算法的目标函数中使用的许多元素(例如支持向量机的RBF内核或线性模型的L1和L2正则化器)都假定所有特征都围绕0居中并且具有相同顺序的方差。如果某个特征的方差比其他特征大几个数量级,则它可能会支配目标函数,并使估计器无法按预期从其他特征中正确学习。 分类前应先缩放特征。有什么简单的方法可以说明为什么我应该这样做?引用科学文章会更好。我已经找到了,但可能还有很多。

4
掷骰子的期望数量要求总和大于或等于K?
6面模具反复滚动。求和大于或等于K所需的预期卷数是多少? 编辑之前 P(Sum>=1 in exactly 1 roll)=1 P(Sum>=2 in exactly 1 roll)=5/6 P(Sum>=2 in exactly 2 rolls)=1/6 P(Sum>=3 in exactly 1 roll)=5/6 P(Sum>=3 in exactly 2 rolls)=2/6 P(Sum>=3 in exactly 3 rolls)=1/36 P(Sum>=4 in exactly 1 roll)=3/6 P(Sum>=4 in exactly 2 rolls)=3/6 P(Sum>=4 in exactly 3 rolls)=2/36 P(Sum>=4 in exactly …

2
均值vs中位数
我有一个数据集,其中包含对紧急服务的所有呼叫以及急救部门的响应时间。他们承认响应时间存在一些错误,因为在某些情况下他们没有开始记录(因此值为0)或没有停止时钟(因此值可能非常高)。 我想找出中心趋势,我想知道使用中位数或修整后的平均值来消除异常值是否更好?

2
具有O(1)更新效率的稳健均值估计
我正在寻找对具有特定属性的均值的可靠估计。我有一组要为其计算此统计信息的元素。然后,我一次添加一个新元素,对于每个其他元素,我想重新计算统计信息(也称为在线算法)。我希望此更新计算速度很快,最好是O(1),即不依赖于列表的大小。 通常的平均值具有此属性,可以有效地对其进行更新,但对异常值不具有鲁棒性。均值的典型鲁棒估计量(如四分位数间均值和修剪均值)无法有效更新(因为它们需要维护排序列表)。 对于可以有效计算/更新的可靠统计信息的任何建议,我将不胜感激。

1
非中心指数分布的期望对数值
假设 XXX 与位置呈非中心指数分布 kkk 和率 λλ\lambda。那是什么E(log(X))E(log⁡(X))E(\log(X))。 我知道 k=0k=0k=0, 答案是 −log(λ)−γ−log⁡(λ)−γ-\log(\lambda) - \gamma 哪里 γγ\gamma是Euler-Mascheroni常数。那什么时候k>0k>0k > 0?

4
预期值与非正态分布中的均值,中位数等有何关系?
连续随机变量的期望值在非正态分布(例如偏正态)中如何与算术平均值,中位数等相关?我对任何常见/有趣的分布都感兴趣(例如,对数正态分布,简单的双向/多峰分布,其他任何奇怪而奇妙的分布)。 我主要在寻找定性答案,但是也欢迎任何定量或公式化答案。我特别希望看到任何使其更清晰的视觉表示。

2
最先进的方法来查找时间序列的零均值部分
我有嘈杂的时间序列,我需要将其细分为平均值为零的那些部分和平均值为零的那些部分。尽可能准确地找到边界很重要(显然边界的确切位置有点主观)。我认为可以修改cusum变体来实现此目的,但是因为cusum主要是要找到单个更改,从而使整个细分策略完全无法解决。 我敢肯定,已经对此问题进行了很多研究,但未能找到它。 PS这些时间序列中的数据量非常大,即多达数亿个样本,单个样本可以是具有数百个分量的向量,因此可以合理快速计算的方法是一个重要因素。 PPS没有细分标签,因此没有分类标签。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.