如果我们要看得见连续数据的分布,应使用直方图和pdf中的哪一个?
直方图和pdf有什么区别,而不是公式上的区别?
如果我们要看得见连续数据的分布,应使用直方图和pdf中的哪一个?
直方图和pdf有什么区别,而不是公式上的区别?
Answers:
为了澄清Dirks的观点:
假设您的数据是正态分布的样本。您可以构建以下图:
红线是经验密度估计,蓝线是潜在正态分布的理论pdf。注意,直方图在这里用密度而不是频率表示。这样做是出于绘图目的,通常在直方图中使用频率。
因此,回答您的问题:如果要描述样本,则使用经验分布(即直方图),如果要描述假设的基础分布,则使用pdf。
通过R中的以下代码生成图:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
这里没有硬性规定。如果您知道人口密度,那么PDF比较好。另一方面,我们经常处理样本,直方图可能会传达一些信息,这些信息被估计的密度所掩盖。例如,安德鲁·盖尔曼(Andrew Gelman)指出了这一点:
直方图的主要优势在于,作为原始数据的图,它包含了自己的错误评估的种子。或者,换句话说,略微平滑的直方图的锯齿状可以通过直观地指示采样变异性来提供有用的服务。这就是为什么,如果您查看我的书籍和已发表文章中的直方图,我几乎总是使用很多垃圾箱。我几乎也从来不喜欢人们有时用来显示一维分布的内核密度估计。我宁愿查看直方图并知道数据在哪里。
相对频率直方图(离散)
密度直方图(离散)
概率密度函数PDF(连续)
这些参考很有帮助:) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
来自上述站点的 Continuous_probability_distribution
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html