预测江南风格的Youtube视图数量的模型


73

PSY的音乐录影带“江南风格”很受欢迎,在短短两个多月的时间里,它已拥有约5.4亿观众。我上周在晚餐时从我的青春期孩子那里学到了这一点,不久的讨论就朝着是否可以预测10到12天内会有多少观众以及这首歌何时播放的方向发展。将使8亿或10亿观众通过。

这是自发布以来观众人数的照片: PSY OGS

这是第一名“ Justin Biever-Baby”和第二名“ Eminem-Love you lie”的音乐录像带的观看者图片,这两段视频的播放时间已经很长了 贾斯汀 阿姆

我第一次尝试建立模型的原因是应该是S形曲线,但这似乎不适合No1和No2歌曲,也不适合音乐视频的观看次数没有限制只能有一个缓慢的增长。

所以我的问题是:我应该使用哪种模型来预测音乐视频的观众数量?


21
+1有助于将餐桌上的谈话从江南区引向统计数据。我们需要像你这样的人!
Stephan Kolassa,2012年

4
我希望能对gui11aume或正在编写方程式以尝试对此建模的其他人员加倍讨论,这是在KONY示例中,地理聚类是病毒传播的重要方面。PSY首先是韩国人,然后是亚洲人的现象,这是故事的重要组成部分。不确定确切如何建模,但这可能是一个线索。

有关该视频在2012年11月期间的观看,评论,喜欢和不喜欢的数据,请访问docs.google.com/spreadsheet/…–
FredrikD

Answers:


38

啊哈,好问题!!

我也很天真地提出了S形逻辑曲线,但这显然不合适。据我所知,由于YouTube会计算唯一身份观看次数(每个IP地址一个),因此不断增加只是一个近似值,因此观看次数不会超过计算机。

我们可以使用人们易感性不同的流行病学模型。为简单起见,我们可以将其分为高风险组(例如儿童)和低风险组(例如成人)。让我们称为“感染”儿童的比例,为“感染”成年人的时间。我将称为高风险组中的(未知)人数,将称为低风险组中的(也未知)人数。y t t X YXŤÿŤŤXÿ

˙ Ý=- [R2X+Ýÿ-ÿt

X˙Ť=[R1个XŤ+ÿŤX-XŤ
ÿ˙Ť=[R2XŤ+ÿŤÿ-ÿŤ

其中。我不知道如何解决该系统(也许@EpiGrad会解决),但是查看您的图表,我们可以做出一些简化的假设。因为增长没有达到饱和,所以我们可以假设非常大而很小,或者 ÿ ÿ[R1个>[R2ÿÿ

˙ Ý=- [R2X

X˙Ť=[R1个XŤX-XŤ
ÿ˙Ť=[R2XŤ

[R1个>[R2ÿ-ÿŤ[R2

该系统解决了

XŤ=XC1个ËX[R1个Ť1个+C1个ËX[R1个Ť
ÿŤ=[R2XŤdŤ+C2=[R2[R1个日志1个+C1个ËX[R1个Ť+C2

其中和是积分常数。那么,总的“感染”种群为 ,它具有3个参数和2个积分常数(初始条件)。我不知道安装它会多么容易...C 2 x t + y t C1个C2XŤ+ÿŤ

0600000000XŤÿŤ

X˙Ť=[R1个XŤX-XŤ
ÿ˙Ť=[R2

并解决

XŤ=XC1个ËX[R1个Ť1个+C1个ËX[R1个Ť
ÿŤ=[R2Ť+C2

X0=1个C 1 = 1Ť=0 XC2=y0C2=0Xr1r2C1个=1个X-1个1个XXC2=ÿ0C2=0X[R1个[R2

X=600000000[R1个=3.66710-10[R2=1个000000

江南风格的增长模型

更新:从我收集到的评论中,Youtube会统计观看次数(以秘密的方式),而不是唯一的IP,这有很大的不同。回到绘图板。

为简单起见,我们假设观看者被视频“感染”。他们会定期观看,直到清除感染为止。最简单的模型之一是SIR(敏感感染抗性),它是:

小号˙Ť=-α小号Ť一世Ť
一世˙Ť=α小号Ť一世Ť-β一世Ť
[R˙Ť=β一世Ť

αβXŤX˙Ť=ķ一世Ťķ

在此模型中,观看次数在感染发生后的某个时间突然开始增加,原始数据中的情况并非如此,这可能是因为视频还以非病毒(或模因)的方式传播。我不是估算SIR模型参数的专家。只是玩不同的值,这就是我想出的(在R中)。

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

外推江南风格的Youtube视频的观点

该模型显然不是完美的,并且可以通过许多合理的方式进行补充。这个非常粗略的草图预测了2013年3月前后某处的十亿观看次数,让我们看看...


5
(+1)作为第一种方法。请注意,鉴于YouTube尚未将算法公开,因此他们对观看次数的计数策略尚未得到很好的理解。他们只说:“只要有人在YouTube上观看视频,就计为一次观看。我们没有比这更具体的了,以避免试图人为地增加观看次数” (请参阅)

3
@FredrikD谢谢。如果我弄错了,您仍然可以在2013年3月删除“接受”:D
gui11aume12年


1
看来我要失去这个了!他们甚至可能在2013
gui11aume12年

2
engadget.com/2012/12/21/gangnam-style-a-billion-views 因此,世界并没有结束,但是今天有10亿的观看次数。
DanTheMan

5

预测新产品采用率的最常见模型是Bass扩散模型,该模型类似于@ gui11aume的回答,它对当前用户与潜在用户之间的交互进行建模。在预测中,新产品的采用是一个非常热门的话题,搜索该术语应会产生大量信息(不幸的是,我没有时间在这里扩展……)。


是的,那也是一个候选模型。但是,似乎它假设您只能成为一个用户。在这里,如果您被“感染”,则可以观看视频多次。
FredrikD 2012年

1
@FredrikD:点了。(尽管我个人甚至没有通过一次“使用”此“产品”就设法坐下……)应该对Bass进行概括来解决这个问题。(无耻的插话:)明年的国际天气预报研讨会在汉城举行,所以任何人都应该考虑在这里展示他/她最喜欢的江南天气预报模型!;-)
斯蒂芬·科拉萨

4

我看一下Gompertz的增长曲线

Gompertz曲线是一个三参数(a,b,c)双指数公式,其中时间T为自变量。

R代码:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

众所周知,Gompertz生长公式可以很好地描述许多生命周期现象,这些现象首先是加速发展的,然后逐渐减小,从而形成不对称的S型曲线,其导数在峰的左侧比在峰的右侧陡峭。例如,维基百科上也具有病毒性质的文章总数多年来一直非常精确地遵循Gompertz生长曲线(具有某些a,b,c参数)。

Gompertz曲线图:总大小及其增长率导数

编辑: 如果Gompertz曲线不足以逼近您要寻找的形状,则可能要d按照《指数化广义Weibull Gompertz分布》的说明添加参数和θ 。请注意,本文使用x代替t来表示独立时间参数。有趣的是,维基百科还通过添加单个第4个参数修改了其最佳近似值d,以说明2012年之后与实际值预测差异。修改后的4参数Gompertz曲线公式为:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Gompertz函数以本杰明·冈佩茨(1779-1865)的名字命名,本杰明·冈佩茨是高斯时代的当代人(仅两年高斯,三年级),他是第一个描述该函数的数学家。


好点子!但是,该模型面临的挑战是它似乎不是一个限制(请参见No1和No2)。也就是说,模型中的因子a也随着时间增加。
FredrikD 2012年

我会挑战“似乎没有限制”。江南风格可以达到1B吗?10B?100B?意见?最终,增长率接近于零,曲线趋于平稳。就像我们现在在江南一样,这很难看出您正处于高增长阶段,但是只要等待几年,您就可以赢得Gompertz的胜利:)诀窍当然是找出正确的方法( b,c)此特定情况的参数。
arielf 2012年

2
下面是用于估计的Gompertz模型的参数的参考,参见weibull.com/RelGrowthWeb/...
FredrikD

3

我认为您需要将像江南风格这样的现象与贾斯汀·比伯和阿姆纳姆区分开来,因为江南风格是一种模因/病毒,而贾斯汀·比伯和阿姆纳姆本身就是大艺术家,并且在传统环境中也会广泛传播- JB或Eminem也会卖很多单曲,但我不确定PSY是否会卖。


好点子。在阅读并收听了PSY和“ OGS”(Oppa Gangnam Style)背后的团队的访谈之后,很明显,他们很清楚按下哪个按钮可以制造出病毒。通过对上面的视图图片进行一些图像分析,似乎在启动后大约90天之内,视图的数量都是线性的,然后PSY出现在韩国大奖赛上,并且每个时间单位的视图数量增加了。
FredrikD 2012年

-这两个类别与“经典”有什么不同?“经典”在首次上传到YouTube时大概很出名(我在想David Bowie)?
abaumann 2012年

2

5
欢迎使用该站点@ ProfRoy47。您介意对此帖子进行一些详细说明吗?尚不清楚这实际上是对OP的问题的答案/它是否完全独立。OTOH,它不适合作为评论,而且我认为它对该线程有帮助。我们的常见问题解答中进行了一些讨论,以提供有关简历的答案,这可能会对您有所帮助。
gung

1

该模型显然不是完美的,并且可以通过许多合理的方式进行补充。这个非常粗略的草图预测了2013年3月前后某处的十亿观看次数,让我们看看...

看看过去一周的观看次数下降情况,认为3月13日这一日期似乎是不错的选择。大多数新视图似乎已被感染,并且每天返回多次。

关于模型的补充,研究人员用来追踪病毒传播的一种方法是监视其基因组突变-变异的时间和地点可以向研究人员展示病毒的传播和传播速度(请参阅追踪美国的西尼罗河病毒) 。

从实际意义上讲,像贾斯汀·比伯(Justin Bieber)的《婴儿》或《阿姆》(Eminem)的歌曲那样,像江南风格(Gangnam Style)和派对摇滚国歌(Party Rock Anthem)(由LMFAO组织)之类的视频更有可能“变异”为模仿,快闪族,婚礼舞蹈,混音和其他视频响应。

研究人员可以分析视频响应的数量(尤其是模仿)来代替突变。在视频生命周期的早期,对这些突变的发生频率和流行程度进行衡量,可能有助于对YouTube的一生观看次数进行建模。


欢迎来到该网站,@ lucasng。CV旨在为实质性问题提供严肃,事实的答案(您可能要阅读我们的常见问题解答),我认为操作人员已牢记这一点。您的答案就在这里。我认为它应该基于其关于突变等的想法,但请注意,关于视频优劣的观点并不是很紧密。
gung

我认为这个主意很好。@gung诚然,这不是对OP的答案,但第二个答案也不是。
gui11aume12年

@gung :(一项Google搜索建议)lucasng并未在您编辑的部分中表达意见,而是引用了执行歌曲的组的名称!
主教

1
@cardinal,感谢您的注意。卢卡森,对混乱感到抱歉;我把组名放回去了。
gung
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.