Questions tagged «pdf»

连续随机变量的概率密度函数(PDF)给出了每个可能值的相对概率。将此标签也用于离散概率质量函数(PMF)。

1
使用样条线查找密度函数的局部极值
我正在尝试找到概率密度函数的局部最大值(使用R density方法找到)。由于存在大量数据,因此我无法执行一种简单的“环顾四周”方法(即环顾一个点以查看其是否是相对于其邻居的局部最大值)。此外,与使用容错和其他参数构建“环顾四周”相反,使用样条插值法然后找到一阶导数的根似乎更为有效和通用。 所以,我的问题是: 给定来自的函数splinefun,哪些方法可以找到局部最大值? 有没有一种简单/标准的方法来查找使用返回的函数的派生形式splinefun? 有没有更好的/标准的方法来找到概率密度函数的局部最大值? 供参考,以下是我的密度函数图。我正在使用的其他密度函数在形式上相似。我应该说我是R的新手,但不是编程的新手,因此可能会有一个标准的库或程序包来实现我所需要的。 谢谢你的帮助!!
15 r  pdf  splines  maximum 

2
Wolfram Mathworld是否会错误地描述具有概率密度函数的离散概率分布?
通常,使用概率质量函数(PMF)描述离散变量的概率分布: 当使用连续随机变量时,我们使用概率密度函数(PDF)而不是概率质量函数来描述概率分布。 - 深度学习的古德费洛,Bengio和库维尔 但是,Wolfram Mathworld使用PDF来描述离散变量的概率分布: 这是一个错误吗?还是没关系?

3
如何计算经验概率密度之间的重叠?
我正在寻找一种方法来计算R中两个内核密度估计之间的重叠区域,以度量两个样本之间的相似性。为了澄清,在下面的示例中,我需要量化紫色重叠区域的面积: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 这里讨论了一个类似的问题,不同之处在于我需要对任意经验数据而不是预定义的正态分布进行此操作。该overlap软件包解决了这个问题,但显然仅用于时间戳记数据,这对我不起作用。Bray-Curtis索引(在vegan包的vegdist(method="bray")函数中实现)似乎也很相关,但对于有些不同的数据也是如此。 我对理论方法和我可能会采用的R函数都感兴趣。

1
导数的核密度估计量是否有最佳带宽?
我需要使用内核密度估计器基于一组观察值来估计密度函数。基于同一组观察,我还需要使用核密度估计器的导数来估计密度的一阶和二阶导数。带宽肯定会对最终结果产生很大影响。 首先,我知道有两个R函数可以提供KDE带宽。我不确定哪一个更受欢迎。谁能推荐这些R函数中的一种来获得KDE带宽? 其次,对于KDE的派生,我应该选择相同的带宽吗?

3
将两个直方图按相同比例放置的最佳方法?
假设我有两个分布要详细比较,即以使形状,比例和偏移容易看到的方式比较。做到这一点的一种好方法是绘制每个分布的直方图,将它们放在相同的X比例尺上,然后在另一个下方堆叠。 执行此操作时,应如何进行装箱?即使一个分布比另一个分布更分散,两个直方图是否也应使用​​相同的bin边界,如下面的图像1所示?是否应在缩放之前针对每个直方图分别进行合并,如下面的图像2所示?在这方面是否有很好的经验法则?


3
密度估算在哪里有用?
在经过一些简短的数学之后,我认为我对内核密度估计有一点直觉。但是我也知道,就其估计量的统计特性而言,估计三个以上变量的多元密度可能不是一个好主意。 那么,在哪种情况下我应该使用非参数方法来估计双变量密度?是否有足够的价值开始担心要针对两个以上的变量进行估算? 如果您可以指向一些有关多元密度估计应用的有用链接,那就太好了。

1
给定单个样本的概率为0,为什么MLE有意义?
我在回顾一些旧的统计数据时有一种奇怪的想法,由于某种原因,我似乎无法想到答案。 连续的PDF告诉我们在任何给定范围内的观测值的密度。即,如果X〜ñ(μ ,σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2),例如,则概率一个实现落在之间一种aa和bbb是简单地∫b一种ϕ (x )dX∫abϕ(x)dx\int_a^{b}\phi(x)dx,其中ϕϕ\phi是标准正态的密度。 当我们考虑对参数(例如μμ\mu进行MLE估计时,我们写出了ñNN(随机变量X1个。。XñX1..XNX_1 .. X_N的联合密度。。X N并将对数似然比wrt区分为μμ\mu,设置为0并求解μμ\mu。通常给出的解释是“给定数据,该参数使该密度函数最合理”。 让我烦恼的部分是:我们的密度为ñNN rv,我们的样本表示,获得特定实现的概率恰好为0。在给定数据的情况下,为什么最大化关节密度甚至有意义(因为再次观察到我们实际样本的概率恰好是0)? 我能想到的唯一合理化方法是,我们希望使PDF 在我们观察到的样本周围尽可能达到峰值,以使该区域中的积分(从而观察该区域中的东西的概率)最高。

3
beta分布从何而来?
我确定这里的每个人都已经知道,Beta分布的PDF 由X〜乙(一,b )X∼B(a,b)X \sim B(a,b) F(x )= 1B (a ,b )Xa − 1(1 − x )b − 1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} 我一直在各地寻找有关该公式起源的解释,但我找不到它。我在Beta发行版上找到的每篇文章似乎都给出了这个公式,说明了它的一些形状,然后直接讨论其关键时刻。 我不喜欢使用无法推导和解释的数学公式。对于其他分布(例如伽马或二项式),有一个明确的推导可以学习和使用。但是我找不到类似的东西用于Beta发行版。 所以我的问题是:该公式的起源是什么?在最初开发的任何上下文中,如何从第一性原理中衍生出来? [为澄清起见,我不是在问如何在贝叶斯统计中使用Beta分布,或者在实践中直觉地意味着什么(我已经读过棒球示例)。我只想知道如何导出PDF。以前有一个问题提出了类似的问题,但是(我认为是错误的)它被标记为另一个未解决该问题的问题的重复,因此到目前为止,我在这里找不到任何帮助。] 编辑2017-05-06:谢谢大家的提问。我想对我想要的东西有一个很好的解释,当我向一些课程讲师问这个问题时,我得到了以下答案之一: “我想人们可以将正常密度推导为n个事物的总和除以sqrt(n)的极限,并且可以从事件以恒定速率发生的想法推导泊松密度。类似地,为了推导Beta密度,您将需要某种概念来确定什么使得Beta分布独立于密度,并且在逻辑上先于密度。” 因此,注释中的“从头开始”的想法可能最接近我要寻找的想法。我不是数学家,但是我使用能够推导的数学感到最自在。如果起源对我来说太先进了,那就去吧,但是如果不是,我想了解它们。

3
两个独立的伽玛随机变量的总和
根据Wikipedia关于Gamma分布的文章: 如果和ÿ 〜ģ 一米米一个(b ,θ ),其中X和ÿ是独立随机变量,则X + ý 〜ģ 一米米一个(一个+ b ,θ )。X〜ģ 一米米一个(一,θ )X∼Gamma(a,θ)X\sim\mathrm{Gamma}(a,\theta)ÿ〜ģ 一米米一个(b ,θ )Y∼Gamma(b,θ)Y\sim\mathrm{Gamma}(b,\theta)XXXÿYYX+ Y〜ģ 一米米一个(一个+ b ,θ )X+Y∼Gamma(a+b,θ)X+Y\sim \mathrm{Gamma}(a+b, \theta) 但是我没有任何证据。谁能指出我的证据? 编辑:非常感谢Zen,而且我在Wikipedia页面上找到了关于特征函数的答案作为示例。

1
导出负熵。被卡住
因此,这个问题有些牵连,但我一直在努力使之尽可能简单。 目标:长话短说,负向性的派生不涉及高阶累积量,我正试图了解它是如何产生的。 背景:(我理解所有这些) 我正在自学这本书的“独立组件分析”书。(如果您有一本书-“非多项式函数的熵近似”,则该问题来自第5.6节)。 我们有,它是一个随机变量,我们希望从一些观察中估计出其负熵。的PDF 由。负熵只是一个标准化高斯随机变量的微分熵与的微分熵之间的差。此处的微分熵由给出,使得:x p x(ζ )x 高xxxxxxpx(ζ)px(ζ)p_x(\zeta)xxxHHH H(x)=−∫∞−∞px(ζ)log(px(ζ))dζH(x)=−∫−∞∞px(ζ)log(px(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta 因此,负熵由 J(x)=H(v)−H(x)J(x)=H(v)−H(x)J(x) = H(v) - H(x) 其中是标准化的高斯rv,PDF由ϕ (ζ )给出。vvvϕ(ζ)ϕ(ζ)\phi(\zeta) 现在,作为这种新方法的一部分,我的书得出了的PDF的估算值,其估算公式为:xxx px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)]px(ζ)=ϕ(ζ)[1+∑iciFi(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)] (其中。顺便说,我是不是一个电源,但索引代替)。ci=E{Fi(x)}ci=E{Fi(x)}c_i = \mathbb{E}\{F^i(x)\}iii 现在,我“接受”这个新的PDF公式,并在第二天询问。这不是我的主要问题。不过,他现在所做的是将的PDF版本重新插入负熵方程,最后得到:xxx J(x)≈12∑iE{Fi(x)}2J(x)≈12∑iE{Fi(x)}2 J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2 请记住,sigma(在此以及在本帖子的其余部分)只是在索引周围循环。例如,如果我们只有两个函数,则信号将在i = …


1
标准正态随机变量的平方的Pdf [关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我有这个问题,我必须找到的pdf Y=X2Y=X2Y = X^2。所有我知道的是,XXX具有分布N(0,1)N(0,1)N(0,1)。是什么分布Y=X2Y=X2Y = X^2?与相同XXX吗?我如何找到pdf文件?

1
如何解释密度图的高度
我应该如何解释密度图的高度: 例如,在上面的图中,峰值在x = 18处约为0.07。我可以推断出大约7%的值在18左右吗?我能比这更具体吗?在x = 30处还有一个第二个峰,高度为0.02。这是否意味着大约2%的值在30左右? 编辑:关于概率分布值超过1的问题可以吗?讨论了> 1的概率值,这在这里根本不是问题。它还讨论了关于朴素贝叶斯分类的问题,这也不是重点。我想用简单的语言从这些密度曲线中得出数值推论。讨论了曲线下面积的作用,但我的问题是具体地,我们可以对存在于曲线上的特定x和y组合得出什么推论。例如,如何在该图上关联x = 30和y = 0.02。关于30和0.02之间的关系,我们可以写什么陈述。因为密度是一个单位值,所以可以说2%的值出现在29.5到30.5之间吗?如果是这样,我们如何解释值是否仅在0到1之间变化,如下图所示: 如果100%的值出现在0和1之间,为什么在0和1之外存在任何曲线? 在x = 0.1到x = 0.2处有一个平坦部分,其中y等于0.8。它形成一个矩形。我们如何找出在x = 0.1和x = 0.2之间出现值的比例 (附言:如果您觉得这个问题有趣/重要,请对其进行投票;)

1
使用所有可能的对来创建正态混合物分布的密度估计方法的名称是什么?
我只是想到一种创建一维密度估计的整洁(不一定好)的方法,我的问题是: 这种密度估算方法有名称吗?如果不是,这是文献中某些其他方法的特例吗? 这是方法:我们有一个向量我们假设从一些不知名的分布,我们想估计得出。一种方法是采用X中所有可能的值对,并使用最大似然对每对[ x i,x j ] i ≠ j拟合正态分布。然后,所得的密度估算值是由所有所得的法线组成的混合物分布,其中,每个法线的权重均相等。X= [ x1个,X2,。。。,Xñ]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]XXX[ x一世,XĴ]i ≠ j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 下图说明了使用这种方法的矢量。这里的圆圈是数据点,彩色的法线是使用每个可能的对估计的最大似然分布,粗黑线显示了所得的密度估计值(即混合分布)。[ - 1.3 ,0.15 ,0.73 ,1.4 ][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] 顺便说一句,在R中实施一个方法很容易,该方法可以从所得混合物分布中提取样品: # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.