统计和大数据 moments

2

我注意到在统计/机器学习方法中，分布通常由高斯近似，然后将高斯用于采样。它们通过计算分配的所述第一两个时刻开始，并使用这些估计μμ\mu和σ2σ2\sigma^2。然后他们可以从那个高斯样本中取样。在我看来，我计算出的力矩越多，我越应该能够估计出我想要采样的分布。如果我计算3个矩该怎么办...如何使用这些矩从分布中采样？这可以扩展到N个时刻吗？

14 probability sampling moments

1

为什么算术平均值小于对数正态分布中的分布平均值？

所以，我有一个随机过程生成数正态分布随机变量XXX。这是相应的概率密度函数：我想估计分配是原始分配的几个时刻，让我们说第一次的时刻：算术平均值。为此，我绘制了100个随机变量10000次，以便可以计算10000次算术平均值估计。有两种不同的方法可以估算均值（至少，这是我的理解：我可能是错的）：通过清楚地计算的算术平均值以通常的方式： X¯= ∑我= 1ñX一世ñ。X¯=∑i=1NXiN.\bar{X} = \sum_{i=1}^N \frac{X_i}{N}. 或先根据基本正态分布估算和μ：μ = N ∑ i = 1 log （X i）σσ\sigmaμμ\mu然后平均值作为 ˉ X =EXP（μ+1μ = ∑我= 1ñ日志（X一世）ñσ2= ∑我= 1ñ（日志（X一世）- μ ）2ñμ=∑i=1Nlog⁡(Xi)Nσ2=∑i=1N(log⁡(Xi)−μ)2N\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}X¯= 经验（μ + 12σ2）。X¯=exp⁡(μ+12σ2).\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2). 问题在于，与每个这些估计相对应的分布在系统上是不同的： …

13 estimation bias fitting lognormal moments

1

测试两个独立样本是否存在相同的偏斜？

哪些检验可用于检验两个独立样本的零假设，即它们来自具有相同偏斜的总体？有一个经典的1样本测试来检查偏斜是否等于一个固定数字（该测试涉及第6个采样矩！）；有2个样本测试的直接翻译吗？是否存在不涉及大量数据的技术？（我期待以'bootstrap it'的形式回答：已知Bootstrap技术适合于此问题吗？）

13 hypothesis-testing distributions bootstrap moments l-moments

1

循环统计中更高时刻的直觉

在循环统计中，圆上具有值的随机变量的期望值定义为（请参阅Wikipedia）。这是一个非常自然的定义，方差因此，我们不需要第二分钟即可定义方差！ZZZSSSm1(Z)=∫SzPZ(θ)dθm1(Z)=∫SzPZ(θ)dθ m_1(Z)=\int_S z P^Z(\theta)\textrm{d}\theta Var(Z)=1−|m1(Z)|.Var(Z)=1−|m1(Z)|. \mathrm{Var}(Z)=1-|m_1(Z)|. 尽管如此，我们定义了较高的矩我承认，乍一看也很自然，并且与线性统计中的定义非常相似。但是我仍然感到有些不舒服，并且有以下几点mn(Z)=∫SznPZ(θ)dθ.mn(Z)=∫SznPZ(θ)dθ. m_n(Z)=\int_S z^n P^Z(\theta)\textrm{d}\theta. 问题： 1. 用上面定义的更高的矩（直觉）来衡量什么？分布的哪些特性可以用它们的矩来表征？ 2.在较高矩的计算中，我们使用复数乘法，尽管我们将随机变量的值仅视为平面中的矢量或角度。我知道复数乘法在这种情况下本质上是角度的加法，但是仍然：为什么复数乘法对循环数据有意义？

13 mathematical-statistics moments intuition circular-statistics

2

对分布均值的瞬间有直觉吗？

有人可以提供一个直觉来解释为什么概率分布的较高矩（如第三和第四矩）分别对应于偏度和峰度吗？具体来说，为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度？有没有办法将此与函数的三阶或四阶导数联系起来？pXpXp_X 考虑偏度和峰度的以下定义： Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} 在这些方程式中，我们将归一化值提升至幂，并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”，或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的！(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma

13 mathematical-statistics skewness moments intuition kurtosis

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

力矩产生函数的标识

是否有任何不相同的分布恰好具有相同的矩生成函数？

12 distributions moments mgf

1

一方面切比雪夫不等式导致更高的时刻

在单方面的情况下，契比雪夫不等式的更高时刻是否有类似物？ Chebyshev-Cantelli不等式似乎仅适用于方差，而Chebyshevs不等式可以很容易地对所有指数产生。有谁知道使用较高矩的单边不等式？

12 approximation moments probability-inequalities

5

来自同一分布族的两个随机变量是否可能具有相同的期望和方差，但具有更高的矩？

我在考虑位置规模家庭的含义。我的理解是，对于位置标尺族的每个成员，其参数分别位置标尺和b标尺，则Z =（Xa）/ b的分布不取决于任何参数，并且属于该族的每个X都是相同的。XXXaaabbbZ=(X−a)/bZ=(X−a)/bZ =(X-a)/bXXX 所以我的问题是，您能否提供一个示例，其中将来自同一分布族的两个随机数标准化，但不会导致具有相同分布的随机变量？假设XXX和YYY来自同一个分布族（例如，我所说的族指正态或Gamma等等）。限定： Z1=X−μσZ1=X−μσZ_1 = \dfrac{X-\mu}{\sigma} Z2=Y−μσZ2=Y−μσZ_2 = \dfrac{Y-\mu}{\sigma} 我们知道Z1Z1Z_1和Z2Z2Z_2都具有相同的期望和方差，μZ=0,σ2Z=1μZ=0,σZ2=1\mu_Z =0, \sigma^2_Z =1。但是他们可以有更高的时刻吗？我试图回答这个问题的尝试是，如果XXX和Y的分布YYY取决于两个以上的参数。我正在考虑具有3个参数的广义t−studentt−studentt-student。但是，如果参数数量为≤2≤2\le2并且XXX和YYY来自相同的分布族，并且具有相同的期望和方差，那么是否意味着Z1Z1Z_1和Z2Z2Z_2具有相同的分布（较高的矩）？

12 probability distributions mathematical-statistics random-variable moments

1

证明如果存在较高的力矩，则也存在较低的力矩

所述一个随机变量的第时刻是有限如果 \ mathbb E（| X ^ R |）<\ infty rrrXXXE(|Xr|)<∞E(|Xr|)<∞ \mathbb E(|X^r|)< \infty 我试图证明对于任何正整数s<rs<rs<r，第 sss个矩E[|Xs|]E[|Xs|]\mathbb E[|X^s|]也是有限的。

12 self-study moments function

1

如何使用前k个（经验）矩拟合近似PDF（即密度估计）？

我有一种情况，我能够估计数据集的（第一个）矩，并希望使用它来生成密度函数的估计。ķkk 我已经遇到过Pearson分布，但是意识到它仅依赖于前4个矩（对矩的可能组合有一些限制）。我还理解，当不使用更多假设时，任何有限的时刻集不足以“固定”特定分布。但是，我仍然希望获得更一般的发行版（Pearson发行版家族除外）。查看其他问题，我找不到这样的分布（请参阅：这里，这里，这里，这里，这里和这里）。是否可以为任何矩集定义一些（“简单”）广义分布族？（也许是一组可以采用标准正态分布的变换，并对其进行变换，直到所有k个矩集都被确认为止）ķkkķkk （如果我们假设其他矩是否为0，则我不太在乎）k + 1 … ∞k+1…∞k+1\ldots\infty 谢谢。 ps：我很高兴有一个扩展的例子。最好以R代码为例。

11 pdf kernel-smoothing moments

1

对峰度的可靠估计？

我使用的是峰度的常用估计量，，但是我注意到经验分布中即使是很小的“离群值” ，即远离中心的小峰，对其产生巨大影响。是否有一个更稳健的峰度估计器？ķ^= μ^4σ^4ķ^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

11 outliers robust moments kurtosis

3

离散分布近似

当您知道离散分布X的均值\ mu，方差\ sigma ^ 2，偏度\ gamma_1和超峰度\ gamma_2时，对于给定的两个整数m，n逼近的最佳方法是什么，并且从形状\ gamma_1和\ gamma_2的（非零）度量中清楚看出，法线近似不适合吗？米，Ñ μ σ 2 γ 1 γ 2 X γ 1 γ 2P[R [ Ñ ≤ X≤ 米]Pr[n≤X≤m]Pr[n \leq X \leq m]米，Ñm,nm,nμμ\muσ2σ2\sigma^2γ1个γ1\gamma_1γ2γ2\gamma_2XXXγ1个γ1\gamma_1γ2γ2\gamma_2 通常，我会使用带整数校正的正态近似值... P[R [ （Ñ - ½）≤ X≤ （m + ½）] = P[R [ （Ñ - ½）- μσ≤ ž≤ （米+ ½）- …

11 probability distributions moments approximation saddlepoint-approximation

3

在不影响峰度的情况下改变偏斜的转换？

我很好奇是否存在可以在不影响峰度的情况下改变随机变量的偏斜的变换。这将类似于RV的仿射变换如何影响均值和方差，但不影响偏斜和峰度（部分原因是，偏斜和峰度被定义为不随尺度变化而变化）。这是一个已知问题吗？

11 data-transformation random-variable moments

1

结合两个协方差矩阵

我正在并行计算分布的协方差，需要将分布的结果合并为奇异的高斯分布。我如何结合两者？如果它们的分布和大小相似，则在两个几乎可行的方法之间进行线性插值。 Wikipedia在底部提供了一个forumla用于组合，但这似乎并不正确。两个相同分布的分布应该具有相同的协方差，但是页面底部的公式会使协方差翻倍。有没有办法合并两个矩阵？

11 covariance moments

Questions tagged «moments»