Questions tagged «distributions»

分布是概率或频率的数学描述。



1
超出方差,偏度和峰度的高阶累积量和矩名称
在物理学或数学力学中,从基于时间的位置,可以通过导数获得相对于时间的变化率:速度,加速度,加加速度(3阶),抖动(4阶)。x (t )X(Ť)x(t) 一些人已经提出 了对七阶导数的捕捉,破裂,爆破。 受到机械物理学和弹性理论启发的矩在统计中也很重要,请参阅概率分布的“矩”有什么“矩”?早在K. Pearson的著作中提到过。 前滞后累积量(有时被归一化或居中),经典地称为方差(2阶),偏度 (3阶)和峰度或平坦度 (4阶)。000 尽管五阶或六阶累积量/矩的估计在有限样本中可能会很麻烦,但是否存在普遍接受或采用的五阶或六阶累积量/矩以及其他名称(“高阶矩”除外)? 引用《数字食谱》第3版:《科学计算的艺术》,第1页。723: 偏度(或第三时刻)和峰度(或第四时刻)应谨慎使用,或者更好的是,根本不使用 《对冲基金合规性和风险管理指南》的Armelle Guizot认为,显然可以在投资组合的风险分析中使用高达7或8阶的矩来证实这一点: 补充笔记: SE.maths:是否有过度偏斜的解释? 尾巴与中心(模式,肩膀)在造成偏斜方面的相对重要性

1
间距与样本均值的比率分布是多少?
令X1,…,XnX1,…,XnX_1,\dots,X_n为均值为的iid指数随机变量的样本ββ\beta,令X(1),…,X(n)X(1),…,X(n)X_{(1)},\dots,X_{(n)}为该样本的阶数统计量。让X¯=1n∑ni=1XiX¯=1n∑i=1nXi\bar X = \frac{1}{n}\sum_{i=1}^n X_i。 限定间隔Wi=X(i+1)−X(i) ∀ 1≤i≤n−1.Wi=X(i+1)−X(i) ∀ 1≤i≤n−1.W_i=X_{(i+1)}-X_{(i)}\ \forall\ 1 \leq i \leq n-1\,. 可以示出,每个WiWiW_i还指数,平均βi=βn−iβi=βn−i\beta_i=\frac{\beta}{n-i}。 问题:如何找到P(WiX¯>t)P(WiX¯>t)\mathbb{P}\left( \frac{W_i}{\bar X} > t \right),其中ttt是已知的并且非负? 尝试:我知道,这是等于1−FWi(tX¯)1−FWi(tX¯)1 - F_{W_i}\left(t \bar X\right)。因此,我使用的总概率的法如下所示: P(Wi>tX¯)=1−FWi(tX¯)=1−∫∞0FWi(ts)fX¯(s)ds,P(Wi>tX¯)=1−FWi(tX¯)=1−∫0∞FWi(ts)fX¯(s)ds, \mathbb{P}\left( W_i > t \bar X \right) = 1 - F_{W_i}\left( t \bar X \right) = 1 - \int_0^\infty F_{W_i}(ts)f_{\bar X}(s) …

2
多项式分布系数之和
\newcommand{\P}{\mathbb{P}}我要死了。每当我得到1、2或3时,我都写下一个“ 1”。每当我得到4时,我就写下“ 2”;每当我得到5或6时,我都会写下“ 3”。 令为我写下的所有数字乘积所需的总抛出次数。我想计算(或近似),并且可以根据正态分布给出近似值。NNN≥100000≥100000\geq 100000P(N≥25)P(N≥25)\P(N\geq 25) 首先,我知道因为。现在,让,和分别是我写下1、2和3的次数。然后:P(N≥11)=1P(N≥11)=1\P(N\geq 11) = 1log3100.000≈10.48log3⁡100.000≈10.48\log_3 100.000 \approx 10.48aaabbbccc P(a,b,c∣n)=⎧⎩⎨⎪⎪(na,b,c)(12)a(16)b(13)c0 if a+b+c=n otherwiseP(a,b,c∣n)={(na,b,c)(12)a(16)b(13)c if a+b+c=n0 otherwise\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = n \\ 0 &\text{ …

1
为什么样本比例也没有二项分布
在二项式设置中,给出成功次数的随机变量X是二项式分布的。然后可以将样本比例计算为,其中是样本量。我的教科书指出 nXnXn\frac{X}{n}nnn 这一比例也不会有二项分布 但是,由于只是二项分布随机变量的缩放版本,它不也应具有二项分布吗? XXnXn\frac{X}{n}XXX

2
凸序是否暗示着右尾优势?
给定两个连续分布FXFX\mathcal{F}_X和FYFY\mathcal{F}_Y,我不清楚它们之间的凸优势地位之间的关系: (0)FX&lt;cFY(0)FX&lt;cFY(0)\quad \mathcal{F}_X <_c \mathcal{F}_Y 暗示 (1)F−1Y(q)≤F−1X(q),∀q∈[0.5,1](1)FY−1(q)≤FX−1(q),∀q∈[0.5,1](1)\quad F_Y^{-1}(q) \leq F_X^{-1}(q),\quad \forall q\in[0.5,1] 是否成立,或者如果需要进一步假设(1)(1)(1)? 凸优势的定义。 如果两个连续分布FXFX\mathcal{F}_X和FYFY\mathcal{F}_Y满足: (2)F−1YFX(x) is convex in x(2)FY−1FX(x) is convex in x(2)\quad F_Y^{-1}F_X(x)\text{ is convex in } x [0]然后我们写: FX&lt;cFYFX&lt;cFYF_X <_c F_Y 并说比F X更右偏。因为F X和F Y是概率分布,所以(2 )还暗示F − 1 Y F X(x )的导数是单调非递减且非负的[1],即 F − 1 Y F …

2
可以成倍增长的稳定分布?
卷积下的稳定分布是不变的。稳定分布的哪些子族也通过乘法闭合?从某种意义上说,如果和,则乘积概率密度函数(直到归一化常数)也属于?FFFf∈Ff∈Ff\in Fg∈Fg∈Fg\in F f⋅gf⋅gf \cdot gFFF 注意:我已实质上更改了此问题的内容。但是这个想法本质上是相同的,现在它变得简单得多。我只有部分答案,所以我认为还可以。

1
有一个定理说
令为具有定义的均值μ和标准偏差σ的任何分布。中心极限定理说 √XXXμμ\muσσ\sigma 收敛于标准正态分布。如果用样本标准差S代替σ,则有一个定理表明 √n−−√X¯−μσnX¯−μσ \sqrt{n}\frac{\bar{X} - \mu}{\sigma} σσ\sigmaSSS 收敛到t分布吗?由于对于较大的n,t分布接近正态,因此如果存在该定理,则该定理可以声明该极限为标准正态分布。因此,在我看来t分布不是​​很有用-仅当X大致为正态时才有用。是这样吗 n−−√X¯−μSnX¯−μS \sqrt{n}\frac{\bar{X} - \mu}{S} nnnXXX 如果可能的话,当被S替换时,您是否会指出包含该CLT证明的引用?这样的参考可以优选地使用度量理论概念。但是在这一点上,任何事情对我来说都是很棒的。σσ\sigmaSSS

2
烧录后的MCMC迭代能否用于密度估计?
老化后,我们是否可以直接使用MCMC迭代进行密度估计,例如通过绘制直方图或核密度估计?我担心的是,尽管MCMC迭代最多是相同分布的,但它们不一定是独立的。 如果我们进一步将细化应用于MCMC迭代该怎么办?我担心的是,MCMC迭代最多是不相关的,并且尚未独立。 我通过Glivenko–Cantelli定理学习了将经验分布函数用作真实分布函数估计的基础,其中经验分布函数是基于iid样本计算的。我似乎看到了一些使用直方图或核密度估计作为密度估计的理由(渐近结果?),但我不记得他们了。

2
相同还是不同?贝叶斯方法
说我有以下模型: Poisson(λ)∼{λ1λ2if t&lt;τif t≥τPoisson(λ)∼{λ1if t&lt;τλ2if t≥τ\text{Poisson}(\lambda) \sim \begin{cases} \lambda_1 & \text{if } t \lt \tau \\ \lambda_2 & \text{if } t \geq \tau \end{cases} 我从数据中推断出下面所示的和。是否存在贝叶斯方法来判断(或量化)和是相同还是不同?λ 2 λ 1 λ 2λ1λ1\lambda_1λ2λ2\lambda_2λ1λ1\lambda_1λ2λ2\lambda_2 也许可以测量与不同的概率λ 2λ1λ1\lambda_1λ2λ2\lambda_2?还是使用KL散度? 例如,如何测量或至少?p (λ 2 &gt; λ 1)p(λ2≠λ1)p(λ2≠λ1)p(\lambda_2 \neq \lambda_1)p(λ2&gt;λ1)p(λ2&gt;λ1)p(\lambda_2 \gt \lambda_1) 总的来说,一旦您获得了如下所示的后验者(假设两者的PDF值到处都是非零值),那么回答这个问题的好方法是什么? 更新资料 这个问题似乎可以通过两种方式回答: 如果我们有后验的样本,我们可以查看(或等效地 )中样本的比例。@ Cam.Davidson.Pilon提供了一个答案,可以使用此类样本解决此问题。λ 2 &gt; …

1
使分布适合空间数据
从mathoverflow交叉发布我的问题,以找到一些特定于统计信息的帮助。 我正在研究一个物理过程,该过程生成的数据可以很好地投影到具有非负值的两个维度中。每个过程都有 -点的(投影)轨迹-参见下图。xxxyyy 样本轨道为蓝色,麻烦的轨道类型以绿色绘制,而关注区域则以红色绘制: 每个轨道都是独立实验的结果。几年来已经进行了2000万次实验,但是从那开始只有2000项实验展现了我们绘制的轨迹特征。我们只关心产生轨迹的实验,因此我们的数据集是(大约)两千条轨迹。 这是可能的轨道,进入关注的区域,我们期望的顺序在曲目这样做。估算这个数字是眼前的问题:11110410410^4 我们如何计算一条任意轨道进入关注区域的可能性? 不可能足够快地进行实验,以查看进入关注区域的跟踪的产生频率,因此我们需要从可用数据中推断出结果。 例如,我们已经拟合了给定值,但这并不能充分处理绿色轨迹之类的数据-似乎需要一个包含两个维度的模型。xxxy≥200y≥200y\ge200 我们已经确定了从每个轨道到关注区域的最小距离,但是我们不相信这会产生合理的结果。 1)是否有已知的方法可以使分布适合此类数据进行外推? -要么- 2)是否有明显的方法使用此数据来创建用于生成轨道的模型?例如,使用轨道上的主成分分析作为较大空间中的点,然后对投影到这些成分上的轨道拟合分布(Pearson?)。

1
对于已知的平均绝对偏差,哪种分布具有最大熵?
我正在阅读Hacker News上有关标准偏差而不是平均绝对偏差等其他指标的使用的讨论。那么,如果我们遵循最大熵的原理,如果仅知道分布的均值和平均绝对偏差,我们将使用哪种分布? 还是使用中位数和与中位数的平均绝对偏差更有意义? 我发现Grechuk,Molyboha和Zabarankin撰写了一篇论文《具有最大偏差量度的最大熵原理》,该文章似乎掌握了我所好奇的信息,但是花了我一段时间才能对其进行解密。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE &lt;- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.