形式为
我有一个来自网络讨论论坛的统计数据集。我正在查看一个主题期望得到的答复数量的分布。特别是,我创建了一个数据集,该数据集包含主题答复计数列表,然后包含具有该答复数目的主题计数。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 如果我将数据集绘制在对数-对数图上,那么我得到的基本上是一条直线: (这是一个Zipfian分布)。Wikipedia告诉我,对数对数图上的直线表示可以用形式的单项式建模的函数。实际上,我已经关注了这样的功能:ÿ= 一个Xķÿ=一种Xķy = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 我的眼球显然不如R准确。那么如何使R更精确地适合我的模型参数呢?我尝试了多项式回归,但是我不认为R试图将指数作为参数拟合-我想要的模型的专有名称是什么? 编辑:谢谢大家的回答。如建议的那样,我现在使用以下配方针对输入数据的日志拟合线性模型: data <- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first 100 …