如何使用CDF和PDF统计信息进行分析


12

这可能是一个笼统的问题,但我希望可以在这里找到帮助。我正在大学里从事RA工作,并且我的主题与Internet流量分析有关。我对分析界还很陌生,但是我想在研究界这是我必须做的很多事情。

我浏览了几篇论文,在很多论文中,我发现他们使用概率密度(PDF),CDF,CCDF等来解释他们获得的结果。例如,用户会话持续时间的PDF,每天传输的字节的CDF等。我参加了概率统计课,所以我了解它们是什么,但我仍然对选择这种表示形式的情况感到困惑。

因此,如果有人在进行此类图表和分析(在其他任何一般主题或其他主题中),您能简单地告诉我在什么情况下使用其中一种表示形式

Answers:


17

部分原因是品味和惯例,但理论,对目标的关注以及认知神经科学的轻描淡写[请参见参考资料]可以提供一些指导。

由于PDF和CDF传达同样的信息,它们之间的区别来自如何,他们做到这一点:一个PDF代表与概率领域而CDF代表与(垂直)的概率距离。研究表明,人们比距离比较区域更快,更准确地比较距离,并且系统地错误估计了区域。因此,如果您的目的是提供一种用于读取概率的图形工具,那么您应该倾向于使用cdf。

Pdfs和cdfs也表示概率密度:前者通过高度来表示,而后者通过斜率来表示密度。现在,表格已被翻转,因为人们对坡度(这是一个角度的正切;我们倾向于看到该角度本身)的估计很差。密度擅长传达有关模式,尾部沉重和间隙的信息。在此类情况下以及需要强调概率分布的局部详细信息的其他任何地方,建议使用pdf。

有时pdf或cdf提供有用的理论信息。其值(或更确切地说是其倒数)包含在分位数,极值和秩统计的标准误差的公式中。在这种情况下,显示pdf而不是cdf。当研究非参数设置(例如,copulas)中的多元相关性时,cdf会更有用(也许是因为它将连续概率定律转换为统一的函数)。

pdf或cdf可以与特定的统计测试密切相关。的Kolmogorov-Smirnov检验(和KS统计)具有在围绕CDF垂直缓冲器换算的简单的图形表示; 就pdf(我知道)而言,它没有简单的图形表示。

ccdf(互补cdf)用于专注于生存和罕见事件的特殊应用程序。它的使用倾向于按照惯例确定。

参考文献

WS克利夫兰(1994)。图形数据的元素。美国新泽西州萨米特(Summit):霍巴特出版社(Hobart Press)。书号0-9634884-1-4

BD登特(1999)。制图:专题地图设计第5版。美国马萨诸塞州波士顿:WCB McGraw-Hill。

AM MacEachren(2004)。地图的工作方式。美国纽约:吉尔福德出版社。书号1-57230-040-X


(+1),尤其是对于距离与面积,坡度与高度的可解释性的见解。
steffen 2010年

8

我同意胡布的回答,但还有一点要注意的地方:

CDF有一个简单的非参数估计器,无需做出选择:经验分布函数。这不是那么简单估计一个PDF。如果使用直方图,则需要选择容器宽度和第一个容器的起点。如果使用内核密度估计,则需要选择内核形状和带宽。一个可疑或愤世嫉俗的读者可能会怀疑您是否真的完全选择了这些先验知识,还是尝试了几种不同的值并选择了给出最喜欢结果的值。

不过,这只是一个小问题。做出来的事情更重要,因此,在考虑了这些因素之后,我仍然不确定时,我可能只会使用它来选择。


这仍然是一个有趣的观点。感谢您提出来。
ub

2

我猜这取决于您要查找,研究,研究或报告的统计数据或发现。我假设您将很有可能使用这些图表来代表您大学主题的发现,对吗?

例如,例如,如果您想表达有关“用户在某个网站上停留的时间”的发现,最好在CDF中显示该信息,因为它通过页面等显示了他在该网站上花费的累计时间。 。

另一方面,如果您只想显示用户点击广告链接(例如Google adwords链接)的可能性,则您可能希望以PDF形式显示它,因为它可能是正态分布钟形曲线,您可以显示发生这种情况的可能性。

希望这会有所帮助,杰夫

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.