直方图和pdf的区别?


18

如果我们要看得见连续数据的分布,应使用直方图和pdf中的哪一个?

直方图和pdf有什么区别,而不是公式上的区别?


您能否澄清这个问题是关于数据(其分布可以用直方图表示)还是理论结构(例如pdf,它描述了概率分布)。
ub

4
但是pdf是从哪里来的?根据定义,pdf描述了理论概率分布。您可能是指edf(经验分布函数)吗?
ub

Answers:


22

为了澄清Dirks的观点:

假设您的数据是正态分布的样本。您可以构建以下图:

替代文字

红线是经验密度估计,蓝线是潜在正态分布的理论pdf。注意,直方图在这里用密度而不是频率表示。这样做是出于绘图目的,通常在直方图中使用频率。

因此,回答您的问题:如果要描述样本,则使用经验分布(即直方图),如果要描述假设的基础分布,则使用pdf。

通过R中的以下代码生成图:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

频率和密度之间有什么区别?
Lakshay

2
@Lakshay频率是计数。所有频率的总和等于观察次数。密度是PDF(概率密度函数)的缩写,它表示具有一定值的概率。在PDF款项下1区
里斯Meys

13

直方图是计算机密度的计算机年龄估计。密度估计是替代方法。

如今,我们同时使用这两种方法,并且有大量文献说明应使用哪种默认值。

另一方面,pdf是给定分布的闭式表达式。这与用估计的密度或直方图描述数据集不同。


1
μσ2density

*ab***ab**$\sqrt{2}$2

6

这里没有硬性规定。如果您知道人口密度,那么PDF比较好。另一方面,我们经常处理样本,直方图可能会传达一些信息,这些信息被估计的密度所掩盖。例如,安德鲁·盖尔曼(Andrew Gelman)指出了这一点:

直方图的变化

直方图的主要优势在于,作为原始数据的图,它包含了自己的错误评估的种子。或者,换句话说,略微平滑的直方图的锯齿状可以通过直观地指示采样变异性来提供有用的服务。这就是为什么,如果您查看我的书籍和已发表文章中的直方图,我几乎总是使用很多垃圾箱。我几乎也从来不喜欢人们有时用来显示一维分布的内核密度估计。我宁愿查看直方图并知道数据在哪里。


3
我必须承认,我从来不完全理解Gelman为什么提倡使用小箱宽的直方图。为什么不使用带状图或原始数据与内核密度估计值叠加,后者更好地传达了观测数据的经验分布?
chl 2010年

2
@chl:当然,还有其他一些很好的可视化方法可以使您了解采样的可变性。但是,在这里讨论的直方图与pdf的较窄比较中,我认为他的观点是正确的。
ars 2010年

1
这是一个很好的链接,那里所讨论的论文也是如此。但是,这种方法是否适用于仿真,在这种情况下,我们实际上是在尝试估算密度?
David LeBauer 2011年

1

相对频率直方图(离散

  • “ y”轴为归一化计数
  • “ y”轴是该特定档位/范围的离散概率
  • 归一化计数总和为1

密度直方图(离散

  • “ y”轴是密度值(“归一化计数”除以“箱宽度”)
  • 酒吧面积总计为1

概率密度函数PDF(连续

  • PDF是直方图的连续版本,因为直方图箱是离散的
  • 曲线下的总面积积分为1

这些参考很有帮助:) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

来自上述站点的 Continuous_probability_distribution

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.