Questions tagged «power-law»

4
解释对数正态分布和幂律分布(网络度分布)之间的差异
首先,我不是统计学家。但是,我一直在为博士做统计网络分析。 作为网络分析的一部分,我绘制了网络度的互补累积分布函数(CCDF)。我发现,与常规网络分布(例如WWW)不同,该分布最适合对数正态分布。我确实尝试根据幂定律进行拟合,并使用Clauset等人的Matlab脚本,发现曲线的尾部遵循带有截止值的幂定律。 虚线表示幂律拟合。紫色线表示对数正态拟合。绿线代表指数拟合。 我努力理解的是什么意思?我已经读过纽曼(Newman)撰写的这篇论文,该论文略微涉及了这个话题:http : //arxiv.org/abs/cond-mat/0412004 以下是我的疯狂猜测: 如果度数分布遵循幂律分布,则我理解这意味着链路和网络度的分布中存在线性优先依附关系(富变得更富效应或Yules过程)。 我说的对数正态分布是否正确,是在曲线的开始处存在次线性的优先连接,而在尾部可以由幂定律拟合的地方,其线性变得更好? 同样,由于对数正态分布是在随机变量(例如X)的对数呈正态分布时发生的,这是否意味着在对数正态分布中,X的较小值较大,而X的较大值较小。遵循幂律分布的随机变量将具有什么? 更重要的是,关于网络度分布,对数正态优先附件是否仍暗示无规模网络?我的直觉告诉我,由于曲线的尾部可以通过幂定律进行拟合,因此仍然可以得出该网络具有无标度特征的结论。

2
如何衡量/争论趋势线与幂律的拟合优度?
我有一些我要拟合趋势线的数据。我相信数据遵循幂定律,因此已在对数-对数轴上绘制数据以寻找直线。这导致了一条(几乎)直线,因此在Excel中我为幂定律添加了一条趋势线。作为一名统计新手,我的问题是,从“ 看起来线条很合适”到“数值属性证明该图适合幂定律” ,现在对我来说最好的方法是什么? XXx 在Excel中,我可以得到一个r平方值,尽管由于我对统计信息的了解有限,我什至不知道在我的特定情况下这是否真的合适。我在下面提供了一张图片,显示了我在Excel中使用的数据的图。我对R有一点经验,因此,如果我的分析受到我的工具的限制,我愿意就如何使用R进行改进提出建议。

4
幂律分布背后的直觉
我知道幂律分布的pdf为p(x)=α−1xmin(xxmin)−αp(x)=α−1xmin(xxmin)−α p(x) = \frac{\alpha-1}{x_{\text{min}}} \left(\frac{x}{x_{\text{min}}} \right)^{-\alpha} 但是,例如,股价遵循幂定律分布,从直觉上意味着什么?这是否意味着损失可能很高但很少发生?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
网站的唯一身份访问者是否遵守幂律?
假设我有一个有序向量,其中第一个元素是在给定时间内访问量最高的唯一IP对该网站的访问次数,第二个元素是该唯一IP所访问的网站的访问次数,第二个元素是访问次数最多,依此类推。我了解每个站点可能会有变化,但是总体上该矢量的形状是否存在假定的模式?例如,它是否遵循幂律分布?
14 web  power-law 

1
如何测试分配是否遵循幂定律?
我有关于多少用户发布多少问题的数据。例如, [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... 这意味着2个用户每个发布了100个问题,9个用户每个发布了10个问题,依此类推。那么,如何确定UserCount, QuestionCount分布是否遵循幂律? 我找到了poweRlaw软件包。但是,我只能传递一组数字来进行评估。(此软件包中提供的示例是单词频率。)那么,如何使用此软件包?还是我有什么问题?我也有每个用户的问题计数的数据,即[100, 100, 10, 10, 10 ... ]。如果我将此数据传递给程序包,我将得到什么?

4
在R中为nls模型获取正确的起始值
我试图将一个简单的幂定律模型拟合到如下数据集: mydf: rev weeks 17906.4 1 5303.72 2 2700.58 3 1696.77 4 947.53 5 362.03 6 目标是使电源线通过并使用它来预测rev未来几周的赞誉。大量的研究使我找到了该nls功能,我按如下方式实现了该功能。 newMod <- nls(rev ~ a*weeks^b, data=modeldf, start = list(a=1,b=1)) predict(newMod, newdata = data.frame(weeks=c(1,2,3,4,5,6,7,8,9,10))) 虽然这适用于lm模型,但会出现singular gradient错误,我理解这与我的初始值a和有关b。我尝试了不同的值,甚至可以在Excel中进行绘制,传递一个孤行,获取一个方程式,然后使用该方程式中的值,但仍然遇到错误。我看着一堆像答案的这一个,并试图在第二个答案(看不惯第一),但都没有结果。 我真的可以在这里找到有关如何找到正确的起始值的帮助。或者,我可以使用什么其他功能代替nls。 如果您想mydf轻松地重新创建: mydf <- data.frame(rev=c(17906.4, 5303.72, 2700.58 ,1696.77 ,947.53 ,362.03), weeks=c(1,2,3,4,5,6))

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.