Questions tagged «moments»

时刻是随机变量特征(例如位置,比例)的摘要。也可用于小时刻。

2
我可以使用分布的矩采样分布吗?
我注意到在统计/机器学习方法中,分布通常由高斯近似,然后将高斯用于采样。它们通过计算分配的所述第一两个时刻开始,并使用这些估计μμ\mu和σ2σ2\sigma^2。然后他们可以从那个高斯样本中取样。 在我看来,我计算出的力矩越多,我越应该能够估计出我想要采样的分布。 如果我计算3个矩该怎么办...如何使用这些矩从分布中采样?这可以扩展到N个时刻吗?

1
为什么算术平均值小于对数正态分布中的分布平均值?
所以,我有一个随机过程生成数正态分布随机变量XXX。这是相应的概率密度函数: 我想估计分配是原始分配的几个时刻,让我们说第一次的时刻:算术平均值。为此,我绘制了100个随机变量10000次,以便可以计算10000次算术平均值估计。 有两种不同的方法可以估算均值(至少,这是我的理解:我可能是错的): 通过清楚地计算的算术平均值以通常的方式: X¯= ∑我= 1ñX一世ñ。X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. 或先根据基本正态分布估算和μ:μ = N ∑ i = 1 log (X i)σσ\sigmaμμ\mu然后平均值作为 ˉ X =EXP(μ+1μ = ∑我= 1ñ日志(X一世)ñσ2= ∑我= 1ñ(日志(X一世)- μ )2ñμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}X¯= 经验(μ + 12σ2)。X¯=exp⁡(μ+12σ2).\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2). 问题在于,与每个这些估计相对应的分布在系统上是不同的: …

1
测试两个独立样本是否存在相同的偏斜?
哪些检验可用于检验两个独立样本的零假设,即它们来自具有相同偏斜的总体?有一个经典的1样本测试来检查偏斜是否等于一个固定数字(该测试涉及第6个采样矩!);有2个样本测试的直接翻译吗? 是否存在不涉及大量数据的技术?(我期待以'bootstrap it'的形式回答:已知Bootstrap技术适合于此问题吗?)

1
循环统计中更高时刻的直觉
在循环统计中,圆上具有值的随机变量的期望值定义为 (请参阅Wikipedia)。这是一个非常自然的定义,方差 因此,我们不需要第二分钟即可定义方差!ZZZSSSm1(Z)=∫SzPZ(θ)dθm1(Z)=∫SzPZ(θ)dθ m_1(Z)=\int_S z P^Z(\theta)\textrm{d}\theta Var(Z)=1−|m1(Z)|.Var(Z)=1−|m1(Z)|. \mathrm{Var}(Z)=1-|m_1(Z)|. 尽管如此,我们定义了较高的矩 我承认,乍一看也很自然,并且与线性统计中的定义非常相似。但是我仍然感到有些不舒服,并且有以下几点mn(Z)=∫SznPZ(θ)dθ.mn(Z)=∫SznPZ(θ)dθ. m_n(Z)=\int_S z^n P^Z(\theta)\textrm{d}\theta. 问题: 1. 用上面定义的更高的矩(直觉)来衡量什么?分布的哪些特性可以用它们的矩来表征? 2.在较高矩的计算中,我们使用复数乘法,尽管我们将随机变量的值仅视为平面中的矢量或角度。我知道复数乘法在这种情况下本质上是角度的加法,但是仍然: 为什么复数乘法对循环数据有意义?

2
对分布均值的瞬间有直觉吗?
有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?pXpXp_X 考虑偏度和峰度的以下定义: Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} 在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 



5
来自同一分布族的两个随机变量是否可能具有相同的期望和方差,但具有更高的矩?
我在考虑位置规模家庭的含义。我的理解是,对于位置标尺族的每个成员,其参数分别位置标尺和b标尺,则Z =(Xa)/ b的分布不取决于任何参数,并且属于该族的每个X都是相同的。XXXaaabbbZ=(X−a)/bZ=(X−a)/bZ =(X-a)/bXXX 所以我的问题是,您能否提供一个示例,其中将来自同一分布族的两个随机数标准化,但不会导致具有相同分布的随机变量? 假设XXX和YYY来自同一个分布族(例如,我所说的族指正态或Gamma等等)。限定: Z1=X−μσZ1=X−μσZ_1 = \dfrac{X-\mu}{\sigma} Z2=Y−μσZ2=Y−μσZ_2 = \dfrac{Y-\mu}{\sigma} 我们知道Z1Z1Z_1和Z2Z2Z_2都具有相同的期望和方差,μZ=0,σ2Z=1μZ=0,σZ2=1\mu_Z =0, \sigma^2_Z =1。 但是他们可以有更高的时刻吗? 我试图回答这个问题的尝试是,如果XXX和Y的分布YYY取决于两个以上的参数。我正在考虑具有3个参数的广义t−studentt−studentt-student。 但是,如果参数数量为≤2≤2\le2并且XXX和YYY来自相同的分布族,并且具有相同的期望和方差,那么是否意味着Z1Z1Z_1和Z2Z2Z_2具有相同的分布(较高的矩)?


1
如何使用前k个(经验)矩拟合近似PDF(即密度估计)?
我有一种情况,我能够估计数据集的(第一个)矩,并希望使用它来生成密度函数的估计。ķkk 我已经遇到过Pearson分布,但是意识到它仅依赖于前4个矩(对矩的可能组合有一些限制)。 我还理解,当不使用更多假设时,任何有限的时刻集不足以“固定”特定分布。但是,我仍然希望获得更一般的发行版(Pearson发行版家族除外)。查看其他问题,我找不到这样的分布(请参阅:这里,这里,这里,这里,这里和这里)。 是否可以为任何矩集定义一些(“简单”)广义分布族?(也许是一组可以采用标准正态分布的变换,并对其进行变换,直到所有k个矩集都被确认为止)ķkkķkk (如果我们假设其他矩是否为0,则我不太在乎)k + 1 … ∞k+1…∞k+1\ldots\infty 谢谢。 ps:我很高兴有一个扩展的例子。最好以R代码为例。

1
对峰度的可靠估计?
我使用的是峰度的常用估计量,,但是我注意到经验分布中即使是很小的“离群值” ,即远离中心的小峰,对其产生巨大影响。是否有一个更稳健的峰度估计器?ķ^= μ^4σ^4ķ^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

3
离散分布近似
当您知道离散分布X的均值\ mu,方差\ sigma ^ 2,偏度\ gamma_1和超峰度\ gamma_2时,对于给定的两个整数m,n逼近的最佳方法是什么,并且从形状\ gamma_1和\ gamma_2的(非零)度量中清楚看出,法线近似不适合吗?米,Ñ μ σ 2 γ 1 γ 2 X γ 1 γ 2P[R [ Ñ ≤ X≤ 米]Pr[n≤X≤m]Pr[n \leq X \leq m]米,Ñm,nm,nμμ\muσ2σ2\sigma^2γ1个γ1\gamma_1γ2γ2\gamma_2XXXγ1个γ1\gamma_1γ2γ2\gamma_2 通常,我会使用带整数校正的正态近似值... P[R [ (Ñ - ½)≤ X≤ (m + ½)] = P[R [ (Ñ - ½)- μσ≤ ž≤ (米+ ½)- …


1
结合两个协方差矩阵
我正在并行计算分布的协方差,需要将分布的结果合并为奇异的高斯分布。我如何结合两者? 如果它们的分布和大小相似,则在两个几乎可行的方法之间进行线性插值。 Wikipedia在底部提供了一个forumla用于组合,但这似乎并不正确。两个相同分布的分布应该具有相同的协方差,但是页面底部的公式会使协方差翻倍。 有没有办法合并两个矩阵?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.