Questions tagged «distributions»

分布是概率或频率的数学描述。

2
我可以测试先前给定数据的有效性吗?
问题 我正在编写一个R函数,该函数执行贝叶斯分析以在已知先验和数据的情况下估计后验密度。我希望该功能在用户需要重新考虑之前发出警告。 在这个问题上,我有兴趣学习如何评估先验。先前的问题涵盖了陈述知情先验的机制(此处和此处)。 在以下情况下,可能需要重新评估先验值: 数据代表了一个极端的情况,在陈述之前 数据中的错误(例如,如果先验单位为kg,则数据单位为g) 由于代码中的错误,因此从一组可用的优先级中选择了错误的优先级 在第一种情况下,先验通常仍然足够分散,除非数据值在不受支持的范围内(例如,logN或Gamma <0),否则数据通常会使它们不堪重负。其他情况是错误或错误。 问题 关于使用数据评估先验的有效性是否存在任何问题? 是否有任何特定测试最适合此问题? 例子 这是两个与较差的数据集,因为它们来自具有(红色)或(蓝色)的。升Ò 克ñ(0 ,1 )升ØGñ(0,1个)logN(0,1)ñ(0 ,5 )ñ(0,5)N(0,5)ñ( 8 ,0.5 )ñ(8,0.5)N(8,0.5) 蓝色数据可能是有效的先验+数据组合,而红色数据将需要先验分布,该分布支持负值。 set.seed(1) x<- seq(0.01,15,by=0.1) plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='') points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red') points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

4
什么测试可以比较社区组成?
希望这个新手问题是该网站的正确问题: 假设我想比较两个地点A,B的生态群落组成。我知道这三个地点都有狗,猫,牛和鸟,因此我在每个地点都采样了它们的丰度(我实际上没有“每个位置的每个动物的预期“数量”)。 如果我算一下,每个位置的每只动物有五只,那么A和B非常“相似”(实际上,它们是“相同”)。 但是,如果我在A站点发现100条狗,5只猫,2头牛和3只鸟。在B站点发现5条狗,3只猫,75头牛和2只鸟。那么我会说A和B站点“不同” ,即使它们具有完全相同的物种组成。 (我阅读了Sorensen's和Bray-Curtis指数,但看起来他们只考虑狗,猫等的不在/在场,而不考虑它们的丰度。) 是否有统计检验确定这一点?

1
是否可以对
首先,我的意思是说,通过分析积分,可以解决积分问题,而不是像数值分析(例如梯形,Gauss-Legendre或Simpson规则)来解决这个问题? 我有一个函数F(x )= x g(x ; μ ,σ)f(x)=xg(x;μ,σ)\newcommand{\rd}{\mathrm{d}}f(x) = x g(x; \mu, \sigma)其中 G(x ; μ ,σ)= 1σx2π−−√e−12σ2(log(x)−μ)2g(x;μ,σ)=1σx2πe−12σ2(log⁡(x)−μ)2 g(x; \mu, \sigma) = \frac{1}{\sigma x \sqrt{2\pi}} e^{-\frac{1}{2\sigma^2}(\log(x) - \mu)^2} 是对数正态分布的概率密度函数,其中参数μμ\mu和σσ\sigma。在下面,我将把符号缩写为g(x)g(x)g(x)并将G(x)G(x)G(x)用作累积分布函数。 我需要计算积分 ∫baf(x)dx.∫abf(x)dx. \int_{a}^{b} f(x) \,\rd x \>. 目前,我正在使用Gauss-Legendre方法进行数值积分。因为我需要多次运行,所以性能很重要。在研究优化数值分析/其他部分之前,我想知道是否有任何积分规则可以解决这个问题。 我尝试应用“按部分积分”规则,然后我又陷入了困境, ∫udv=uv−∫vdu∫udv=uv−∫vdu\int u \,\mathrm{d}v = u v - \int v \mathrm{d}u。 u=x⟹d u …

2
如何从数据确定韦布尔参数?
我有风速数据的直方图,通常使用韦伯分布来表示。我想计算出最适合直方图的weibull形状和比例因子。 我需要一个数值解决方案(与图形解决方案相对),因为目标是通过编程确定weibull形式。 编辑: 每10分钟收集一次样本,风速在10分钟内取平均值。样本还包括每个时间间隔内记录的最大和最小风速,目前暂时忽略,但我想稍后介绍。料斗宽度为0.5 m / s

1
处理峰度产生的异常值
我想知道是否有人可以帮助我了解有关峰度的信息(即,是否有任何方法可以转换您的数据以减少它?) 我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示出相当高的峰度值(即瘦小体分布),这是由于许多参与者对该变量给出的分数完全相同。我确实有一个特别大的样本量,因此根据中心极限定理,违反正态性仍然可以。 但是,问题在于,峰度特别高的事实在我的数据集中产生了许多单变量离群值。这样,即使我转换数据或除去/调整异常值,峰度的高水平也意味着下一个最高分会自动变为异常值。我打算使用(判别函数分析)。如果违规是由偏斜而不是异常值引起的,则据说DFA可以很好地抵制偏离正常状态的情况。此外,据说DFA特别受数据中异常值的影响(Tabachnick&Fidel)。 关于如何解决这个问题的任何想法?(我最初的想法是某种控制峰度的方法,但是如果我的大多数样本都给出类似的评分,那不是一件好事吗?)


3
如何从数据样本中估计Zipf截断分布的参数?
我对Zipf的估算参数有问题。我的情况如下: 我有一个样本集(从产生应遵循Zipf分布的调用的实验中测得)。我必须证明此生成器确实会生成带有zipf分发的调用。我已经阅读了此问答,如何从一组最高频率中计算Zipf定律系数?但由于使用了截短的分布,所以结果很差。例如,如果我在生成过程中将“ s”值设置为“ 0.9”,则如果我尝试估算报告的“问题与答案”中所写的“ s”值,那么我将获得等于0.2 ca的“ s”。我认为这是由于我使用了TRUNCATED发行版(我必须用截断点来限制zipf,它被右截断了)。 如何使用截断的zipf分布估算参数?

2
卡方检验分布是否相等:它可以容忍多少个零?
我正在比较两组突变体,每组突变体只能具有21种不同表型中的一种。我想看看两组之间这些结果的分布是否相似。我找到了一个在线测试 ,用于计算“分布均等性的卡方检验”,并给出一些合理的结果。但是,此表中有很多零,所以在这种情况下我可以完全使用卡方吗? 这是具有两组和特定表型计数的表: 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 0 1

4
量化QQ图
qq图可用于可视化两个分布的相似程度(例如,可视化分布与正态分布的相似性,还可以比较两个人工数据分布)。是否有任何统计数据能够生成更客观的数值度量来表示其相似性(最好以归一化(0 <= x <= 1)形式)?例如,在使用洛伦兹曲线时,基尼系数用于经济学中。QQ图有东西吗?

4
如何在图中寻找谷底?
我正在研究一些基因组覆盖率数据,这些数据基本上是一长串整数(几百万个值),每个整数都表示覆盖基因组中此位置的程度(或“深度”)。 我想在此数据中寻找“山谷”,即比周围环境明显“低”的区域。 请注意,我要寻找的山谷的大小可能在50个碱基到数千个碱基之间。 您会建议使用哪种范例来找到那些山谷? 更新 数据的一些图形示例: 更新2 定义什么是山谷当然是我一直在努力的问题之一。这些对我来说是显而易见的: 但是还有一些更复杂的情况。通常,我考虑3个标准:1.相对于全局平均值,窗口中的(平均?最大?)覆盖率。2.窗口中相对于其周围的覆盖范围。3.窗口有多大:如果我看到很短的覆盖范围很有趣,如果我看到很长的覆盖范围很有趣,如果我看到很短的覆盖很短的范围也不是很有趣。 ,但如果我看到很长一段时间的覆盖率偏低-是的,所以这是sapn长度和覆盖率的结合。时间越长,我就越会覆盖,但仍然认为它是一个山谷。 谢谢, 戴夫

3
是独立的变量时分布
作为常规练习,我试图找到的分布,其中 和是独立的随机变量。X2+Y2−−−−−−−√X2+Y2\sqrt{X^2+Y^2}XXXYYYU(0,1)U(0,1) U(0,1) 的联合密度为 (X,Y)(X,Y)(X,Y)fX,Y(x,y)=10&lt;x,y&lt;1fX,Y(x,y)=10&lt;x,y&lt;1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right)cosθcos⁡θ\cos\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]zsinθ&lt;1⟹θ&lt;sin−1(1z)zsin⁡θ&lt;1⟹θ&lt;sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right)sinθsin⁡θ\sin\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right] 因此,对于1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2,我们有cos−1(1z)&lt;θ&lt;sin−1(1z)cos−1⁡(1z)&lt;θ&lt;sin−1⁡(1z)\cos^{-1}\left(\frac{1}{z}\right)<\theta<\sin^{-1}\left(\frac{1}{z}\right)。 变换的雅可比的绝对值为|J|=z|J|=z|J|=z 因此(Z,Θ)(Z,Θ)(Z,\Theta)的联合密度由下式给出 fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2√),θ∈(cos−1(1/z),sin−1(1/z))}fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2),θ∈(cos−1⁡(1/z),sin−1⁡(1/z))}f_{Z,\Theta}(z,\theta)=z\mathbf 1_{\{z\in(0,1),\,\theta\in\left(0,\pi/2\right)\}\bigcup\{z\in(1,\sqrt2),\,\theta\in\left(\cos^{-1}\left(1/z\right),\sin^{-1}\left(1/z\right)\right)\}} 积分θθ\theta,我们得到ZZZ的pdf 为 fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1(1z))11&lt;z&lt;2√fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1⁡(1z))11&lt;z&lt;2f_Z(z)=\frac{\pi z}{2}\mathbf 1_{0\sqrt 2 \end{cases} 看起来像正确的表达。对于情况微分会带来一个表达式,该表达式不易简化为我已经获得的pdf。FZFZF_Z1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2 最后,我认为我具有CDF的正确图片: 对于:0&lt;z&lt;10&lt;z&lt;10<z<1 对于:1&lt;z&lt;2–√1&lt;z&lt;21<z<\sqrt 2 阴影部分应该指示区域{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}\left\{(x,y):0<x,y< 1\,,\,x^2+y^2\le z^2\right\} 图片立即产生 FZ(z)=Pr(−z2−X2−−−−−−−√≤Y≤z2−X2−−−−−−−√)=⎧⎩⎨⎪⎪⎪⎪πz24z2−1−−−−−√+∫1z2−1√z2−x2−−−−−−√dx, if 0&lt;z&lt;1, if 1&lt;z&lt;2–√FZ(z)=Pr(−z2−X2≤Y≤z2−X2)={πz24, if 0&lt;z&lt;1z2−1+∫z2−11z2−x2dx, if 1&lt;z&lt;2\begin{align} F_Z(z)&=\Pr\left(-\sqrt{z^2-X^2}\le Y\le\sqrt{z^2-X^2}\right) \\&=\begin{cases}\frac{\pi z^2}{4} &,\text{ if } 0<z<1\\\\ \sqrt{z^2-1}+\int_{\sqrt{z^2-1}}^1 \sqrt{z^2-x^2}\,\mathrm{d}x …


3
将法线除以可得出t分布-证明
让和。w ^ 〜χ 2(小号)Z∼N(0,1)Z∼N(0,1)Z \sim N(0,1)W∼χ2(s)W∼χ2(s)W \sim \chi^2(s) 如果和独立分布,则变量遵循自由度的分布。W Y = ZZZZWWW吨小号Y=ZW/s√Y=ZW/sY = \frac{Z}{\sqrt{W/s}}tttsss 我正在寻找这一事实的证明,如果您不想写下完整的参数,那么引用就足够了。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.