解释对数正态分布和幂律分布(网络度分布)之间的差异


22

首先,我不是统计学家。但是,我一直在为博士做统计网络分析。

作为网络分析的一部分,我绘制了网络度的互补累积分布函数(CCDF)。我发现,与常规网络分布(例如WWW)不同,该分布最适合对数正态分布。我确实尝试根据幂定律进行拟合,并使用Clauset等人的Matlab脚本,发现曲线的尾部遵循带有截止值的幂定律。

在此处输入图片说明

虚线表示幂律拟合。紫色线表示对数正态拟合。绿线代表指数拟合。

我努力理解的是什么意思?我已经读过纽曼(Newman)撰写的这篇论文,该论文略微涉及了这个话题:http : //arxiv.org/abs/cond-mat/0412004

以下是我的疯狂猜测:

如果度数分布遵循幂律分布,则我理解这意味着链路和网络度的分布中存在线性优先依附关系(富变得更富效应或Yules过程)。

我说的对数正态分布是否正确,是在曲线的开始处存在次线性的优先连接,而在尾部可以由幂定律拟合的地方,其线性变得更好?

同样,由于对数正态分布是在随机变量(例如X)的对数呈正态分布时发生的,这是否意味着在对数正态分布中,X的较小值较大,而X的较大值较小。遵循幂律分布的随机变量将具有什么?

更重要的是,关于网络度分布,对数正态优先附件是否仍暗示无规模网络?我的直觉告诉我,由于曲线的尾部可以通过幂定律进行拟合,因此仍然可以得出该网络具有无标度特征的结论。


2
迈克,我认为看到您正在寻找的情节将非常有趣。您介意编辑您的答案以包括它吗?我立即注意到的一件事是,关于权力定律和优惠依附的含义是倒退的。尽管(某些)优先依附方案会生成幂律度分布,但相反的含义并不正确(即,这不是唯一的方法)。有关正在查看的网络类型的一些信息也可能会有所帮助。干杯。
红衣主教

1
我的意思是优惠依恋只是“富人致富”效应的别称,对吗?如果是这样,那么线性(幂律)网络度分布只是可以证明优先依附的许多度分布之一?换句话说,只要曲线的斜率在对数对数图上为负,那么无论分布如何,都存在一些优先附着的元素?那么,对数正态分布和幂律度分布之间的区别不在于是否存在优先依附,而在于它的比例性。
Mike

1
注意,优先连接是一个(随机的)过程,它为网络生成幂律度分布。线的斜率将根据幂律的缩放指数而变化,但是在对数法线的情况下,即使在尾部,图也不是线性的。无论结果如何,生存分布的梯度将始终为负。(为什么?)
红衣主教

这是一个很好的编辑。谢谢,迈克尔!您显示的区域中的对数正态拟合非常显着。看起来它的尾巴可能有点破裂。
主教2012年

再次感谢您的答复。因此,您是否同意我正在观察的网络中的优先附件仍在起作用?导致的另一个问题是网络是否无规模。如果优先连接在网络中起作用,并且只要网络招募新成员,那么即使网络度分布不是线性的,也可以将网络分类为无标度。这是我不太确定的地方。
Mike

Answers:


12

我认为将问题分为两个部分会有所帮助:

  1. 您的经验分布的功能形式是什么?和
  2. 该功能形式对您的网络生成过程意味着什么?

p>0.1X15p<0.1意味着基本上做同样的事情。您能否拒绝该模型作为生成学位分布数据的过程?如果不是,则可以将对数正态归类为“合理”类别。

X1个

第二个问题实际上是两者中较难的一个。正如某些人在上面的评论中指出的那样,有许多机制可以产生幂律分布,而优先依附关系(在其所有变化和荣耀中)只是其中的一种。因此,观察数据中的幂律分布(即使是通过必要的统计检验的真实幂律分布)也不足以得出结论说生成过程是优先附件的证据。或者,更一般而言,如果您拥有一种机制A,该机制会在数据中生成某种模式X(例如,网络中的对数正态分布)。观察数据中的模式X并不表示您的数据是由机制A产生的。数据与A一致,但这并不意味着A是正确的机制。

为了真正表明A是答案,您必须直接测试其机械假设,并证明它们也适用于您的系统,并且最好还显示该机制的其他预测也包含在数据中。假设,测试部的一个真正伟大的例子是由希德瑞德纳(参见图4所做本文),其中他表明,引文网络,线性择优连接的假设实际上是在数据保存。

最后,“无标度网络”一词在文献中已过多使用,因此我强烈建议您避免使用它。人们用它来指代具有幂律度分布到(线性)优先依附增长的网络。但是,正如我们刚刚解释的那样,这两件事并不相同,因此使用单个术语来引用两者只是令人困惑。在您的情况下,对数正态分布与经典的线性优先附件机制完全不一致,因此,如果您决定对数正态是问题1(在我的回答中)的答案,则表明您的网络不是“从这个意义上说,在那种情况下,上尾部作为幂律分布是“可以”的事实将是没有意义的,因为任何经验分布的上尾部总是有一部分可以通过该检验(并且因为该检验而可以通过)当没有太多数据需要传输时会断电,这恰好发生在最上面的尾部)。


说话时,是否混用<和>来表示上尾巴的p值?
大卫·内森

此注释中的p值条件正确。此处提及的p值来自arxiv.org/abs/0706.1062的 4.1节,其中大值代表良好拟合,而小值代表不良拟合。具体见脚注8第17页的底部
乔纳森S.

3

这样一个很酷的问题。我正在与此相关的对话中与我在CrossValidated上其他地方提出的问题相关。在那里,我问伽玛分布是否是用于社交网络模拟的良好分布,在这种社交网络中,联系的概率对于节点的某些连续“受欢迎”特征是内生的。@NickCox建议我改用对数正态分布。我回答说,对数正态分布具有某种理论上的合理性作为描述受欢迎程度的基本过程,因为受欢迎程度可以解释为许多正值随机变量(例如,财富,收入,身高,性能力,战斗能力,智商)的乘积。对我来说,这比幂律的理论依据更有意义,它与经验数据相吻合,这表明幂律的形状过于僵化,无法解释度分布的跨网络变化。对数正态 相比之下,它具有非常灵活的形状,对于高方差,模式接近零。此外,有意义的是,由于优先附着效应,度分布的偏斜度应随方差增加。

总而言之,我认为对数正态分布最适合您的数据,因为对数正态分布比幂定律或指数分布更好地描述了度分布形成的基本过程。


2

在计算完我的气泡分布并使用幂定律获取粘度数据后,请来到此站点。

略读Clauset等人在幂律论文中的示例数据集。他们提出了一些真正的恐怖数据集,而不是幂律数据集来支持他们的论点。从常识上讲,我当然不会尝试将幂定律函数适合大多数数据的整个数据范围。但是,现实世界中的自扩展行为在整个观察到的系统中可能是有效的,但是当某些系统属性达到物理或功能极限时,这种行为就会崩溃。

以下非常易读的论文涉及生态学家的增长曲线拟合,并基于基于观测的人口行为模型对幂定律和相关分布进行了很好的讨论。

作者比Clauset等人更加务实。引用:“ ...如果目标仅是最佳拟合且未讨论数据集的尺度窗口之外的尺度,则任何模型都可以满足,只要它产生了良好的拟合并且在所研究的尺度窗口内不产生最大值或最小值。” “为了能够比较参数值,通常不得不像其他研究人员一样将相同的模型应用于数据,但是除了应用更好的拟合模型或期望值更高的模型之外,人们还可以这样做。形状,或两者兼而有之。” 宁静的话。

Tjørve,E。(2003)。物种-面积曲线的形状和功能:可能模型的综述。《生物地理杂志》,30(6),827-835。

Tjørve,E.(2009年)。物种-面积曲线的形状和功能(ii):新模型和参数化的回顾。生物地理杂志,36(8),1435-1445。


1

以上结果表明,度分布既可以是幂律,也可以是对数正态分布,这可能表明在研究的网络中小世界和无标度属性并存。为了检查网络是否具有优先连接的无标度(具有恒定的标度参数),通常需要进行实验设计。在上面提到的Sid Redner的文章中,使用增长率来了解增长机制。而Gallos,Song和Makse使用方框覆盖网络,并得出结论,如果NB(lB)〜lB ^ -dB,则网络度分布遵循幂律分布。或检查聚类系数和度之间的关系(该关系是否满足幂定律)。否则,将讨论层级网络既具有小世界又具有无标度网络属性。(不使用分形标度,

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.