CDF是否比PDF更基础?


43

我的统计专家基本上说过,如果给出以下三个之一,则可以找到其他两个:

  • 累积分布函数
  • 瞬间产生功能
  • 概率密度函数

但是我的计量经济学教授说,CDF比PDF更基础,因为在某些示例中您可以拥有CDF,但未定义PDF。

CDF是否比PDF更基础?我如何知道可以从CDF导出PDF还是MGF?


23
这是某种根本性竞赛吗?我们有名人评委小组吗?所有这三个概念都可以用于定义空间上的度量。但是,对于给定的CDF,可能不存在MGF和PDF,因为PDF被定义为CDF的派生,而MGF被定义为,并且积分不需要存在。但是,这并不意味着所有这些概念都不那么基础。基础知识是一个很好的形容词,没有数学定义。它是重要的同义词。ř EXPXd˚FXRdRexp(tx)dF(x)
mpiktas

6
@mpiktas:(的子集)上的每个概率分布都有CDF,并且它唯一地定义了分布。但是,并非所有概率分布都具有PDF或MGF(但它们都具有特征函数)。Rn
Ilmari Karonen '16

3
@mpiktas您可以在上使用来执行此操作。则没有定义。尽管如此,我很清楚为什么教授使用了“更基本”这一表达。形容词可能没有明确的数学含义,但是那又是什么呢? (也有一些)英语,我们知道的每个PDF都有一个潜在的CDF。在这里,“底层”与“基本”有着很好的联系。相反的R P - x ] A={R,}RP((,x])
说法

2
@drhab,我自然是在谈论Radon-Nikodym导数:)我太完全理解教授的想法了,但是在我看来,与学生一起使用这样的表达是危险的,因为那样的话,而不是试图去理解它们之间的区别。他们试图根据基本性对数学概念进行排名,这在根本上是错误的。双关打算。
mpiktas,2016年

4
@mpiktas:当然,“基本”没有确切的定义。但是在“严格定义”和“完全没有意义”之间有很大的中间立场。当然,在我们的数学本身中,所有内容最终都必须完全严格,因此我们非常习惯于将所有不符合条件的东西都拍掉。但是,当我们谈论和思考关于数学,我们的主观至今没有意义的概念,如“基本”,“一般”等为好,像其他人一样; 没关系
PLL

Answers:


69

(的子集)上的每个概率分布都具有累积分布函数,并且它唯一地定义了分布。因此,从这个意义上讲,CDF确实与发行版本身一样重要。Rn

概率密度函数,但是,对于只存在(绝对)连续概率分布。缺少PDF的分布的最简单示例是任何离散概率分布,例如仅采用整数值的随机变量的分布。

当然,这种离散的概率分布可以用概率质量函数来代替,但也有一些既不具有PDF也不具有PMF的分布,例如连续分布和离散分布的任意混合:

连续,离散和混合概率分布图
(图从Glen_b的一个相关问题的答案中被无耻地窃取了。)

甚至存在奇异的概率分布,例如Cantor分布,即使通过PDF和PMF 的组合也无法描述。但是,此类分布仍然具有定义明确的CDF。例如,这是Cantor发行版的CDF,有时也称为“魔鬼的阶梯”:

康托发行CDF
图片来自TheonAmirki用户的Wikimedia Commons,在CC-By-SA 3.0许可下使用。)

CDF(称为Cantor函数)是连续的,但不是绝对连续的。实际上,除Cantor集零Lebesgue测度外,它在任何地方都是恒定的,但仍然包含无数个点。因此,康托尔分布的整个概率质量都集中在实数线这一消失的小子集上,但是集合中的每个点仍然单独具有零概率。


还有一些概率分布不具有矩生成函数。可能最著名的例子是柯西分布,这是一种不规则的1阶或更高阶矩的胖尾分布(因此,尤其是没有明确的均值或方差!)。

但是,上的所有概率分布都具有(可能是复数值的)特征函数,其定义与MGF的定义仅在于与虚数单位相乘。因此,特征函数可以被视为与CDF基本相同。Rn


您说每个分布都有CDF,但并非每个都有PDF,但是实际上有些分布具有PDF,但没有封闭形式的CDF,例如多元正态分布。
蒂姆

13
@Tim:是的,但仅适用于“封闭形式”限定词;即使我们不能以封闭形式编写CDF,它也仍然存在。在任何情况下,“ 封闭形式表达式 ” 的定义都非常模糊。根据一些严格的定义,即使单变量正态分布也没有闭式CDF,但是如果您将误差函数视为闭式CDF,则它具有闭式CDF 。
Ilmari Karonen '16

11
@Tim这不是反例。这是您选择的对您来说很重要/根本的任意属性。对我来说,“存在”属性比“具有封闭形式”更重要。更重要的是,“始终存在”与“可能有时没有闭合形式,就像任何函数一样”。
方舟坤

3
比康托集具有“无数个点”更重要的是它具有无数个点。它具有相同的基数,即间隔。因此,它是间隔为零(勒贝格)的不可计数的子集。您正在描述的度量同样有趣,因为Cantor集的可计数子集上的度量为零,而(某些)不可数子集上的度量仅为非零……[0,1]R
Eric Towers 2016年

1
@ Ark-kun我在这里扮演恶魔倡导者,因为在某些情况下,PDF比CDF更“直接可用”。我喜欢这个答案(+1),但是恕我直言,这也是值得一提的。
蒂姆

16

我相信您的计量经济学教授正在按照以下思路进行思考。

考虑功能与domiain由下式定义[ 0 1 ]F[0,1]

Fx=1

F(x)=12x for x<12
F(x)=12x+12 for x12

这是一个不连续的函数,但是对于上的某些概率分布而言,它是完全有效的CDF 。请注意,使用此分布[0,1]

P({12})=12

即使有CDF,也没有功能可以用作此发行版的PDF。f

如果您之前已经看过这种事情,那么在这个简单的示例中很容易就可以确定它是否成立。假设有一个pdf,我们将证明它必须具有不可能的性质,因此不存在。f

根据PDF的定义,我们必须

0xf(t)dt=F(x)F(0)=14x

对于所有。集成到线性函数的函数必须是常数(技术上几乎在任何地方都是常数),因此我们得出结论:0<x<12

f(x)=14 for x<12

以同样的方式,但从1开始积分,向零移动,到,我们得出相同的结论x>12

f(x)=14 for x>12

因此,我们有决心无处不在,除了。但是,到底是什么并不重要,它不能具有所需的集成属性。以来ff(12)f(12)

P({12})=12

我们会需要

12ϵ12+ϵf(t)dt>12

对于每个包含间隔。但是实际上,任何积分的值都不会因在任何一点上更改函数的值而受影响,因此12

12ϵ12+ϵf(t)dt=12ϵ12+ϵ14dt=12ϵ

所以没有出路,像这样的函数就不存在。f

您可以恢复PDF的精髓,但是必须使用更复杂的数学对象(度量分布)


3
通过将求和成否则非常传统的PDF,可以很容易地实现这种“不可能的属性” ,其中是的狄拉克δ,具有0值的地区除外的(无限高的) “尖峰”的一般化函数在,用特殊属性即。δXX=0 + &Integral; -δX12δ(x12)δ(x)x=0
+δ(x)dx=1
Iwillnotexist Idonotexist

2
@iwill根据定义,PDF是函数的等价类(在关于Lebesgue度量的范式中)。狄拉克三角洲不符合条件-这就是为什么必须将其称为“广义函数”的原因。L1
ub

@IwillnotexistIdonotexist抱怨的是我在最后一行暗示的内容。我用“发行”一词。
马修·德鲁里

4
您的示例并没有pdf格式,因为您隐含地认为主导度量是Lebesgue度量。但是,当你使用一个主导的措施,其中包括一个质点在它处,例如勒贝格措施狄拉克和总和。1 / 21/21/2
西安

4

Ilmari从理论角度给出了很好的答案。但是,也可能会问密度(pdf)和分布函数(pdf)用于实际计算的目的是什么。这可以阐明一种情况比另一种情况更直接有用。

对于上的概率分布,分布函数直接给出所有区间的概率从这些概率中,可以通过基本算术计算区间的有限并集的概率。可以认为,这些都是你希望可以计算唯一的概率可能是理论上方便表达这些。或更一般的集合概率为积分,但对于实际的计算,我们需要有效的分布函数。 - X ] - -R(,x]

但是,密度对于统计至关重要,因为可能性是根据密度定义的。因此,如果我们要计算最大似然估计,则直接需要密度。

如果我们将经验分布和理论分布进行比较,两者都可能有用,但是通常首选基于分布函数的方法,例如pp-和qq-图。

有关概率分布为的分布函数起着以下显着的作用。原因之一是无法轻松地计算出许多兴趣集(球,椭球,圆锥等)的概率。 d2Rdd2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.