Questions tagged «distributions»

分布是概率或频率的数学描述。

3
计算从连续分布中采样的数据模式
拟合连续分布采样数据的“模式”的最佳方法是什么? 由于该模式在技术上是不确定的(对吗?),以便进行连续分配,所以我真的在问“您如何找到最普遍的价值”? 如果您假设父分布是高斯分布,则可以对数据进行分箱,然后发现模式是计数最大的分箱位置。但是,如何确定垃圾箱大小?有健壮的实施方案可用吗?(即对异常值具有鲁棒性)。我使用python/ scipy/ numpy,但我可以轻松进行翻译R。

4
用R分析风数据
嗨,我正在分析风数据以估算风力涡轮机的能量。 我已经收集了10年的风力数据并绘制了直方图。 我的第二阶段是将Weibull分布拟合到数据。 我将R与包装lmom一起使用以计算Weibul形状并缩放,这是我使用的代码: >library(lmom) wind.moments<-samlmu(as.numeric(pp$WS)) moments<-pelwei(wind.moments) x.wei<-rweibull(n=length(pp$WS), shape=moments["delta"], scale=moments["beta"]) hist(as.numeric(pp$WS), freq=FALSE) lines(density(x.wei), col="red", lwd=4) 数据和密度函数之间似乎有些滞后。你能帮我吗?另一个问题是您可以帮助我根据密度函数计算年能量吗? 谢谢
12 r  distributions 


2
如何参数化两个正态分布变量的比率或一个的倒数?
问题: 我正在参数化分布,以用作贝叶斯元分析中的先验和数据。数据在文献中以摘要统计的形式提供,几乎专门假定为正态分布(尽管所有变量均不能小于0,某些变量是比率,某些变量是质量,等等)。 我遇到了两种情况,但我没有解决方案。有时感兴趣的参数是数据的倒数或两个变量的比率。 例子: 两个正态分布变量的比率: 数据:氮和碳百分比的平均值和标准偏差 参数:碳氮比。 正态分布变量的倒数: 数据:质量/面积 参数:面积/质量 我当前的方法是使用仿真: 例如,对于一组碳和氮百分比数据,均值:xbar.n,c,方差:se.n,c,样本大小:nn,nc: set.seed(1) per.c <- rnorm(100000, xbar.c, se.c*n.c) # percent C per.n <- rnorm(100000, xbar.n, se.n*n.n) # percent N 我想参数化ratio.cn = perc.c / perc.n # parameter of interest ratio.cn <- perc.c / perc.n 然后为我的先前选择范围为的最佳拟合分布0 → ∞0→∞0 \rightarrow \infty library(MASS) dist.fig …

5
来自同一分布族的两个随机变量是否可能具有相同的期望和方差,但具有更高的矩?
我在考虑位置规模家庭的含义。我的理解是,对于位置标尺族的每个成员,其参数分别位置标尺和b标尺,则Z =(Xa)/ b的分布不取决于任何参数,并且属于该族的每个X都是相同的。XXXaaabbbZ=(X−a)/bZ=(X−a)/bZ =(X-a)/bXXX 所以我的问题是,您能否提供一个示例,其中将来自同一分布族的两个随机数标准化,但不会导致具有相同分布的随机变量? 假设XXX和YYY来自同一个分布族(例如,我所说的族指正态或Gamma等等)。限定: Z1=X−μσZ1=X−μσZ_1 = \dfrac{X-\mu}{\sigma} Z2=Y−μσZ2=Y−μσZ_2 = \dfrac{Y-\mu}{\sigma} 我们知道Z1Z1Z_1和Z2Z2Z_2都具有相同的期望和方差,μZ=0,σ2Z=1μZ=0,σZ2=1\mu_Z =0, \sigma^2_Z =1。 但是他们可以有更高的时刻吗? 我试图回答这个问题的尝试是,如果XXX和Y的分布YYY取决于两个以上的参数。我正在考虑具有3个参数的广义t−studentt−studentt-student。 但是,如果参数数量为≤2≤2\le2并且XXX和YYY来自相同的分布族,并且具有相同的期望和方差,那么是否意味着Z1Z1Z_1和Z2Z2Z_2具有相同的分布(较高的矩)?

2
统计数据的图形直观
在这篇文章中,您可以阅读以下声明: 模型通常由有限维流形上的点表示。θθ\theta 在迈克尔·K·默里和约翰·赖斯的《微分几何与统计》中,这些概念以散文可读的方式进行了解释,甚至忽略了数学表达式。不幸的是,很少有插图。MathOverflow上的帖子也是如此。 我想寻求视觉表示的帮助,以作为对主题进行更正式理解的地图或动机。 歧管上有什么要点?此在线查找中的引号似乎表明它可以是数据点,也可以是分布参数: 流形和信息几何的统计是差分几何满足统计的两种不同方式。在流形统计中,数据位于流形上,而在信息几何中,数据位于RnRnR^n,但是将感兴趣的概率密度函数的参数化族视为流形。这样的流形被称为统计流形。 我画这个图由切空间的这种解释的启发在这里: [ 编辑以反映以下有关的评论:C∞C∞C^\infty ]在流形,切线空间是与相关的点上所有可能的导数(“速度”)的集合。流经的流形上的所有可能曲线这可以看作是从每条曲线穿过一组映射即定义为组成,用表示曲线(从实线到歧管表面的函数(M)(M)(\mathcal M)p∈Mp∈Mp\in \mathcal M(ψ:R→M)(ψ:R→M)(\psi: \mathbb R \to \mathcal M)p.p.p.p,p,p,C∞(t)→R,C∞(t)→R,C^\infty (t)\to \mathbb R,(f∘ψ)′(t)(f∘ψ)′(t)\left(f \circ \psi \right )'(t)ψψ\psiMM\mathcal M)穿过点并在上图中以红色表示;和表示一个测试功能。“ iso- ”白色轮廓线映射到实线上的同一点,并围绕点。p,p,p,˚F pf,f,f,fffppp 等价(或施加到统计等价中的一个)进行了讨论这里,和将涉及以下引用: 如果指数族的参数空间包含维开放集,则称其为满秩。sss 不是满秩的指数族通常被称为弯曲指数族,因为通常参数空间是维度小于的曲线小号。RsRs\mathcal R^ss.s.s. 这似乎使得对图的解释如下:分布参数(在这种情况下是指数分布族)位于流形上。在秩不足的非线性优化问题的情况下,的数据点将通过函数映射到流形上的一条线。这将与物理学中的速度计算并行:沿着“ iso-f”线的梯度寻找函数的导数(橙色的方向导数):函数将起到优化分布参数选择的作用,如曲线 ψ :- [R → 中号 ˚F (˚F ○ ψ ) '(吨)。˚F :中号 → [R ψ …

2
两个独立统一随机变量乘积的pdf
让〜和〜与给定的分布两个独立随机变量。的分布是什么?XXXU(0,2)U(0,2)U(0,2)YYYU(−10,10)U(−10,10)U(-10,10)V=XYV=XÿV=XY 我已经尝试过卷积,知道 h(v)=∫y=+∞y=−∞1yfY(y)fX(vy)dyH(v)=∫ÿ=-∞ÿ=+∞1个ÿFÿ(ÿ)FX(vÿ)dÿh(v) = \int_{y=-\infty}^{y=+\infty}\frac{1}{y}f_Y(y) f_X\left (\frac{v}{y} \right ) dy 我们还知道, fY(y)=120Fÿ(ÿ)=1个20f_Y(y) = \frac{1}{20} ħ(v)=1h(v)=120∫y=10y=−101y⋅12dyH(v)=1个20∫ÿ=-10ÿ=101个ÿ⋅1个2dÿh(v)= \frac{1}{20} \int_{y=-10}^{y=10} \frac{1}{y}\cdot \frac{1}{2}dy h(v)=140∫y=10y=−101ydyH(v)=1个40∫ÿ=-10ÿ=101个ÿdÿh(v)=\frac{1}{40}\int_{y=-10}^{y=10} \frac{1}{y}dy 告诉我,这里有些奇怪,因为它在0处是不连续的。请帮助。

2
正弦波的概率分布
当存在一些测量误差时,我希望从一个振荡函数来分析计算采样点的概率分布。我已经计算了“无噪声”部分的概率分布(我将在结尾处进行介绍),但是我不知道如何包括“噪声”。 数值估算 更清楚地说,假设有一个函数,您可以在一个周期内随机选择点;如果您将直方图上的点归类,您将获得与分布有关的信息。ÿ(x )= 罪(x )ÿ(X)=罪⁡(X)y(x) = \sin(x) 无噪音 例如,这里是和相应的直方图š 我Ñ (X )s一世ñ(X)sin(x) 有噪音 现在,如果存在一些测量误差,那么它将改变直方图的形状(因此,我认为是基本分布)。例如 解析计算 因此,希望我已经说服了两者之间存在一些差异,现在我将写出如何计算“无噪音”情况: 无噪音 ÿ(x )= 罪(x )ÿ(X)=罪⁡(X) y(x) = \sin(x) 然后,如果我们采样的时间是均匀分布的,则的概率分布必须满足:ÿÿy P(y)dÿ= dX2个πP(ÿ)dÿ=dX2π P(y) dy = \frac{dx}{2\pi} 然后因为 dXdÿ= ddÿ(反正弦(y)) = 11 − y2-----√dXdÿ=ddÿ(反正弦⁡(ÿ))=1个1个-ÿ2\frac{dx}{dy} = \frac{d}{dy}\left(\arcsin(y)\right) = \frac{1}{\sqrt{1 - y^{2}}} 所以 P(y)= 12个π1 − y2-----√P(ÿ)=1个2π1个-ÿ2 …


1
重要抽样的直观示例
我的背景是计算机科学。我对蒙特卡洛采样方法还很陌生,尽管我了解数学原理,但我很难拿出直观的示例进行重要性采样。更准确地说,有人可以提供以下示例: 一个原始分布,一个人不能从中抽样,但一个人可以估算 重要度分布,可以从原始分布中进行抽样并得到足够的信息。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …


1
三角形分布的MLE?
是否可以将常规的MLE程序应用于三角形分布?-我正在尝试,但是在数学上似乎一步一步被定义分布的方式所阻塞。我试图利用一个事实,即我知道c上下的样本数量(不知道c):如果n是样本总数,则这两个数字是cn和(1-c)n。但是,这似乎无助于推导。此刻的时刻给出了c的估计量,没有太大的问题。这里的MLE阻塞的确切性质是什么(如果确实存在)? 更多细节: 让我们考虑在,并在规定的分配由: [ 0 ,1 ] [ 0 ,1 ]Ccc[ 0 ,1 ][0,1][0,1][ 0 ,1 ][0,1][0,1] F(x ; c )= 2 xCf(x;c)=2xcf(x;c) = \frac{2x}{c}如果x <c如果c <= x,则 F(x ; c )= 2 (1 − x )(1 − c )f(x;c)=2(1−x)(1−c)f(x;c) = \frac{2(1-x)}{(1-c)} 让我们从这个分布中取 iid样本,以给定该样本的c的对数似然性为例:{ x i }ñnn{ x一世}{xi}\{x_{i}\} 升^(c | …



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.