Questions tagged «distributions»

分布是概率或频率的数学描述。

2
估计多元高斯的协方差后验分布
我需要以很少的样本“学习”一个双变量高斯分布,但是对于先验分布有一个很好的假设,因此我想使用贝叶斯方法。 我定义我的在先: P(μ)∼N(μ0,Σ0)P(μ)∼N(μ0,Σ0) \mathbf{P}(\mathbf{\mu}) \sim \mathcal{N}(\mathbf{\mu_0},\mathbf{\Sigma_0}) μ0=[00] Σ0=[160027]μ0=[00] Σ0=[160027] \mathbf{\mu_0} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma_0} = \begin{bmatrix} 16 & 0 \\ 0 & 27 \end{bmatrix} 和我的分销给定的假说 P(x|μ,Σ)∼N(μ,Σ)P(x|μ,Σ)∼N(μ,Σ) \mathbf{P}(x|\mathbf{\mu},\mathbf{\Sigma}) \sim \mathcal{N}(\mathbf{\mu},\mathbf{\Sigma}) μ=[00] Σ=[180018]μ=[00] Σ=[180018] \mathbf{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma} = …

9
非负数据的标准偏差可以超过平均值吗?
我有一些三角3D网格。三角形区域的统计信息是: 最低0.000 最高2341.141 均值56.317 标准开发98.720 那么,当数字像上面那样工作时,这是否意味着对于标准偏差特别有用或表明在计算标准偏差时存在错误?这些区域肯定远非正常分布。 就像某人在以下他们的回应之一中提到的那样,令我感到非常惊讶的是,数字均值仅用一个标准差就能得出负数,从而超出了法律范围。 谢谢

2
什么是“消息传递方法”?
我对什么是消息传递方法有一个模糊的认识:一种算法,该算法通过在所有其他因子的所有近似值的基础上迭代构建分布的每个因子的近似值来构建分布的近似值。 我相信这两个都是变体消息传递和期望传播的示例。什么是更明确/正确的消息传递算法?欢迎参考。


2
什么是功能分配?
我正在阅读CE Rasmussen和CKI Williams 的教科书《高斯机器学习过程》,并且在理解函数分布的含义时遇到了一些麻烦。在教科书中,给出了一个示例,该示例将一个函数想象为一个很长的向量(实际上,它应该无限长吗?)。因此,我认为函数上的分布是这样的矢量值“上方”绘制的概率分布。那么函数是否有可能采用该特定值呢?还是函数将采用给定范围内的值的可能性?还是在函数上分配是分配给整个函数的概率? 从教科书中引用: 第1章:简介,第2页 高斯过程是对高斯概率分布的概括。概率分布描述的是标量或向量的随机变量(对于多元分布),而随机过程控制函数的属性。抛开数学的复杂性,人们可以松散地将函数视为一个很长的向量,向量中的每个条目都在特定输入x处指定函数值f(x)。事实证明,尽管这个想法有些天真,但却令人惊讶地接近了我们所需要的。确实,我们如何在计算上处理这些无限维对象的问题具有可以想象到的最令人愉悦的分辨率:如果仅要求函数在有限数量的点上的属性, 第2章:回归,第7页 有几种解释高斯过程(GP)回归模型的方法。可以认为高斯过程定义了函数的分布,并且推理直接在函数空间即函数空间视图中进行。 从最初的问题: 我拍了这张概念图,试图自己想象一下。我不确定我自己所做的解释是否正确。 更新后: 在回答Gijs之后,我将图片更新为概念上更像这样的东西:

4
期望值与最可能值(模式)
分布的期望值是平均值,即加权平均值 f(x)f(x)f(x)E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最可能的值是众数,即最可能的值。 但是,我们期望以某种方式看到很多次吗?从这里报价:E[x]E[x]E[x] 如果结果的概率不相等,则必须用加权平均值代替简单的平均值,这要考虑到某些结果比其他结果更有可能的事实。然而,直觉保持不变:x的期望值是人们期望平均发生的值。xixix_ixxx 我不明白“平均发生”是什么意思,这是否意味着,从长远来看,我希望花很多时间才能看到E[x]E[x]E[x]比x的其他值更多xxx?但这不是模式的定义吗? 那么如何解释该陈述?E [x]的概率含义是E[x]E[x]E[x]什么? 我还想举个例子,让我感到困惑。通过研究分布,我了解到模式 为,而,其中是数据的自由度。χ2χ2\chi^2χ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2E[χ2]=νE[χ2]=νE[\chi^2]=\nuνν\nu 我在大学听说,在使用最小二乘法拟合一组数据后进行测试时,我应该期望得到因为“这通常会发生”。χ 2听,说:νχ2χ2\chi^2χ2≈νχ2≈ν\chi^2 \approx \nu 我是否误解了所有这些,或者期望值是否很有可能?(即使最可能的值当然是模式)

3
在实践中计算Kullback-Leibler散度?
我使用KL散度作为2 之间差异的量度。米。f 。p.m.f.p.m.f.p.m.f. PPP和QQQ。 DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) 如果P(Xi)=0P(Xi)=0P(X_i)=0 那么我们可以轻松地计算出 P(Xi)ln(Q(Xi))=0P(Xi)ln(Q(Xi))=0P(X_i)ln\left(Q(X_i)\right)=0 P(Xi)ln(P(Xi))=0P(Xi)ln(P(Xi))=0P(X_i)ln\left(P(X_i)\right)=0 但是,如果且Q (X i)= 0,则 如何计算P (X i)l n ( Q (X i))P(Xi)≠0P(Xi)≠0P(X_i)\ne0Q(Xi)=0Q(Xi)=0Q(X_i)=0P(Xi)ln(Q(Xi))P(Xi)ln(Q(Xi))P(X_i)ln\left(Q(X_i)\right)

2
分布反映情况,其中一些等待带领我们期待着更多的等待
在上彼得泰尔对初创企业的演讲阅读布莱克法师的笔记,我碰到这个比喻的技术前沿: 想象世界被池塘,湖泊和海洋所覆盖。您坐在船上,在水里。但这是非常有雾的,所以您不知道它到另一边有多远。您不知道自己是在池塘,湖泊还是海洋中。 如果您在池塘里,可能会需要大约一个小时的穿越时间。因此,如果您整天都在外面,那么您要么在湖中,要么在海洋中。如果您已经出门一年了,那么您正在穿越海洋。旅程越长,预期的剩余旅程就越长。的确,随着时间的流逝,您越来越接近另一端。但是在这里,时间的流逝也表明您还有很长的路要走。 我的问题是:是否存在一种可以最好地模拟这种情况的概率分布或统计框架,尤其是粗体部分?

2
用过度分散对泊松分布建模
我有一个数据集,我希望它遵循泊松分布,但它的分散程度约为3倍。目前,我正在使用R中的以下代码对这种过度分散进行建模。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 从视觉上看,这似乎非常符合我的经验数据。如果我对拟合感到满意,是否有任何理由应该做一些更复杂的事情,例如使用负二项式分布(如此处所述)?(如果是这样,那么这样做的任何指针或链接将不胜感激)。 哦,我知道这会创建一个稍微呈锯齿状的分布(由于乘以三),但这对我的应用程序来说并不重要。 更新: 为了其他人搜索和发现此问题,这里有一个简单的R函数,它使用负二项分布来建模过度分散的泊松。将d设置为所需的均值/方差比: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (通过R邮件列表:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)


9
引用具有各种属性的分布
我经常发现自己问这样的,“我知道这个变量的问题 之处在于(0 ,1 )和大多数群众的谎言在(0 ,0.20 ),然后持续下降朝1.我可以使用哪些分布模型呢? ”Xxx(0 ,1 )(0,1)(0,1)(0 ,.20 )(0,.20)(0,.20) 在实践中,由于我了解它们,所以一次又一次地使用相同的几个分布。相反,我想以更系统的方式查找它们。我如何才能获得概率论者在开发所有这些分布方面所做的大量工作? 理想情况下,我希望按属性(支撑区域等)进行组织的参考,因此我可以根据其特征找到分布,然后根据pdf / cdf的可处理性以及理论推导的拟合程度来了解每种分布的更多信息我正在研究的问题。 是否存在这样的参考?如果不存在,如何选择发行版?


2
最大平均差异(距离分布)
我有两个数据集(源数据和目标数据),它们遵循不同的分布。我正在使用MMD(这是一种非参数的距离分布)来计算源数据和目标数据之间的边际分布。 源数据,Xs 目标数据,Xt 适应矩阵A *投影数据,Zs = A'* Xs和Zt = A'Xt * MMD =>距离(P(Xs),P(Xt))= | 平均值(A'Xs)-平均值(A'Xt )| 这意味着:原始空间中源数据和目标数据之间的分布距离等于嵌入式空间中投影源数据和目标数据的均值之间的距离。 我对MMD的概念有疑问。 在MMD公式中,为什么可以通过计算潜在空间中的距离来测量原始空间中的分布距离? 谢谢

3
如何测量两个频率分布之间的统计“距离”?
我正在执行一个数据分析项目,其中涉及调查一年中网站的使用时间。我想做的是比较使用模式的“一致性”,例如,与每周使用1小时一次或每次使用10分钟一次的模式有多接近6每周次数。我知道可以计算的几件事: 香农熵:衡量结果中的“确定性”相差多少,即概率分布与均匀分布的相差多少? Kullback-Liebler散度:测量一个概率分布与另一个概率分布有多少不同 Jensen-Shannon散度:与KL 散度相似,但在返回有限值时更有用 Smirnov-Kolmogorov检验:一种用于确定连续随机变量的两个累积分布函数是否来自同一样本的检验。 卡方检验:一种拟合优度检验,用于确定频率分布与预期频率分布的差异程度。 我想做的是比较分布中实际使用时间(蓝色)与理想使用时间(橙色)的差异。这些分布是离散的,下面的版本被归一化为概率分布。横轴表示用户在网站上花费的时间(以分钟为单位);这已记录在一年中的每一天;如果用户根本没有上过网站,则该时间为零,但已从频率分布中删除。右边是累积分布函数。 我唯一的问题是,即使我可以使JS-divergence返回一个有限值,但当我查看不同的用户并将其使用分布与理想用户进行比较时,我得到的值几乎是相同的(因此这不是一个好方法。表示两者之间的差异)。同样,当归一化为概率分布而不是频率分布时,会丢失大量信息(例如,学生使用该平台50次,则应垂直缩放蓝色分布,以使长条的总长度等于50,并且橙色栏的高度应为50,而不是1)。我们所说的“一致性”的部分原因是用户访问网站的频率是否会影响他们从网站中获得多少收益;如果他们失去访问该网站的次数,那么比较概率分布就有点不确定了;即使用户持续时间的概率分布接近“理想”使用情况,该用户在一年中可能只使用了1周的平台,这可能不是很一致。 是否有比较完善的技术来比较两个频率分布并计算某种度量,以表征它们的相似度(或相异度)?

2
柯西分布是某种“不可预测的”分布吗?
柯西分布是某种“不可预测的”分布吗? 我试着做 cs <- function(n) { return(rcauchy(n,0,1)) } 在R中获得了多个n值,并注意到它们有时会生成非常不可预测的值。 比较一下例如 as <- function(n) { return(rnorm(n,0,1)) } 这似乎总是给点“紧凑”的云。 通过这张图片,它应该看起来像正态分布吗?然而,它可能仅适用于一部分价值。还是诀窍在于,柯西标准偏差(如下图所示)收敛得更慢(左右方向),因此尽管概率较低,但允许更严重的离群值? 这里是正常rv,cs是柯西rv。 但是,由于异常值的极端,Cauchy pdf的尾部可能永远不会收敛吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.