我有一个问题:您认为每天在YouTube上花费的时间分布如何?
我的回答是,它可能呈正态分布并且高度偏左。我期望有一种模式,大多数用户会花一些平均时间,然后右尾较长,因为有些用户压倒了高级用户。
这是一个公平的答案吗?有更好的词来表示这种分布吗?
我有一个问题:您认为每天在YouTube上花费的时间分布如何?
我的回答是,它可能呈正态分布并且高度偏左。我期望有一种模式,大多数用户会花一些平均时间,然后右尾较长,因为有些用户压倒了高级用户。
这是一个公平的答案吗?有更好的词来表示这种分布吗?
Answers:
每天一小部分肯定不是负数。这排除了正态分布,该正态分布在整个实轴上(尤其是在负半数上)具有概率质量。
幂律分布通常用于建模诸如收入分布,城市规模等事物。它们是非负的,并且通常存在高度偏差。这将是我第一次尝试模拟观看YouTube的时间。(或监视交叉验证问题。)
正常的分布不会高度偏斜。那是一个矛盾。正态分布的变量的偏斜= 0。
“有更好的词汇来表示这种分布吗?”
在这里用词来描述发行版的属性与尝试为发行版寻找一个“名称” 之间存在一个有意义的区别,以便您可以将其标识为(近似)特定标准发行版的一个实例:或可能存在用于其分布函数的统计表,您可以为其估计参数。在后一种情况下,您可能会使用命名分布,例如“正态/高斯”(这两个术语通常是同义词),作为捕获数据某些关键特征的模型,而不是声称数据的总体是从得出的完全符合该理论分布。为了稍微误导乔治·Box,所有模型都是“错误的”,但有些有用。如果您正在考虑建模方法,则值得考虑要合并哪些功能以及希望模型变得多么复杂或简约。
作为正偏态是描述属性的一个例子,该分布具有,但不接近指定哪些关闭的,现成的分布是“该”适当的模型。它确实排除了一些候选对象,例如高斯分布(即正态分布)具有零偏斜,因此如果偏斜是重要特征,则不适合对数据建模。数据的其他属性也可能对您也很重要,例如,它是单峰的(只有一个峰),或者在0到24小时之间(或者在0到1之间,如果您将其写为小数)或某天质量可能集中在零(因为有些人在某一天根本不观看youtube)。峰度。值得记住的是即使您的分布具有“驼峰”或“钟形曲线”形状并且具有零或接近零的偏斜,也不会自动遵循正态分布对其“正确”的提示!,另一方面,由于抽样误差,即使从实际数据中提取的总体确实确实遵循特定的分布您的数据集可能不太相似。小数据集可能是“嘈杂的”,并且可能不清楚您是否可以看到某些功能(例如,其他小驼峰或不对称尾巴)是否是从中提取数据的基础总体的属性(因此,可能应该将其合并)在您的模型中)还是它们仅仅是您特定样本中的假象(出于建模目的,应忽略)。如果您的数据集很小并且偏度接近于零,那么甚至可以认为基础分布实际上是对称的。数据集越大,偏度越大,则变得越不合理-但是当您可以执行显着性检验,以查看您的数据为从中得出的总体中的偏度提供了有说服力的证据,这可能缺少关于正态(或其他零偏度)分布是否适合作为模型的要点 。 。
数据的哪些属性对您要建模的目的真正重要?请注意,如果偏斜度相当小并且您并不十分在意,即使基础人口确实偏斜了,那么您仍可能会发现正态分布是一个有用的模型,可以近似此观看时间的真实分布。但是,您应该检查一下结果是否不会做出愚蠢的预测。由于正态分布没有最高或最低的可能值,那么虽然极高或极低值变得越来越不可能,你总能找到你的模型预测还有一些每天观看负数小时或超过24小时的概率。如果此类不可能发生的事件的预测概率变高,这将给您带来更多问题。像正态分布一样的对称分布可以预测,随着越来越多的人关注时间长度,例如,比平均值高出50%以上,而关注时间比平均值低了不到50%。如果观看时间很偏斜,那么这种预测可能也太愚蠢了,以至于给您误导的结果,如果你正在你的模型的结果,并利用它们作为其他一些通用输入(例如,你正在运行观看时间的模拟,以计算最佳广告投放时间)。如果偏度非常值得注意,您希望将其捕获为模型的一部分,则偏斜正态分布可能更合适。如果要同时捕获偏度和峰度,请考虑偏斜的t。如果要合并物理上可能的上限和下限,请考虑使用截断的这些发行版的版本。存在许多其他可能会偏斜和单峰(针对适当的参数选择)的概率分布,例如F或伽马分布,并且您可以再次截断这些分布,以便它们不会预测不可能的长时间观看。 A β分布如果您要模拟一天中的观看时间,则可能是一个不错的选择,因为该时间始终介于0到1之间,无需进一步截断。如果您希望由于非观察者而将概率集中度精确地设为零,那么可以考虑建立一个障碍模型。
但是在这一点上,您试图引入可以从数据中识别出的每个功能,并构建一个更加复杂的模型,也许您应该问自己为什么要这么做?更简单的模型是否有优势,例如,更容易进行数学运算或需要较少的参数进行估算?如果您担心这种简化将使您无法捕获所有感兴趣的属性,那么很可能没有任何“现成的”发行版本可以完全满足您的需求。但是,我们不限于使用其数学性质已在前面阐明的命名分布。相反,请考虑使用数据来构建经验分布函数。这将捕获数据中存在的所有行为,但是您不能再给它起“正态”或“伽马”之类的名称,也不能应用仅与特定分布有关的数学属性。例如,“ 95%的数据位于均值的1.96标准偏差之内”规则适用于正态分布的数据,可能不适用于您的分布;但是请注意,某些规则适用于所有分布,例如,切比雪夫(Chebyshev)的不平等保证至少可以无论偏斜如何,您的数据的75%必须在均值的两个标准差之内。不幸的是,经验分布还将继承数据集的所有那些属性,这些属性纯粹是由抽样误差引起的,而不仅是基础总体所具有的那些属性,因此您可能会发现经验分布的直方图存在一些驼峰和下降,而总体本身并没有。您可能需要研究平滑的经验分布函数,或者更好的方法是增加样本量。
总结:尽管正态分布具有零偏斜,但是您的数据偏斜的事实并不排除正态分布是有用的模型,尽管它确实暗示了其他一些分布可能更合适。选择模型时,除了偏斜之外,还应该考虑数据的其他属性,并且还要考虑要使用模型的目的。可以肯定地说,您的观看时间的真实数量并不完全遵循某些著名的命名分布,但这并不意味着这种分布注定不会成为模型。但是,出于某些目的,您可能更喜欢仅使用经验分布本身,而不是尝试为其拟合标准分布。
伽玛分布可能是描述非负右偏数据上这种分布的一个很好的候选者。在此处查看图像中的绿线:https : //en.m.wikipedia.org/wiki/Gamma_distribution
障碍模型怎么样?
障碍物模型分为两个部分。第一个是Bernoulli实验,它确定您是否完全使用YouTube。如果您不这样做,那么您的使用时间显然为零,那么您就完成了。如果这样做,您“越过了障碍”,那么使用时间就来自其他一些严格的正分配。
紧密相关的概念是零膨胀模型。这些是为了处理我们观察到一堆零但无法区分始终为零和有时为零的情况。例如,考虑一个人每天吸烟的数量。对于不吸烟的人,该数字始终为零,但是某些吸烟者可能在特定的一天不吸烟(抽烟?长途飞行?)。与跨栏模型不同,此处的“吸烟者”分布应包括零,但这些计数也会因非吸烟者的贡献而“膨胀”。
如果分布确实是正态分布的“子集”,则应考虑截断的模型。在这种情况下,广泛使用的是TOBIT模型系列。
他们必不可少地建议一个pdf,其(正)概率质量为0,然后是一个正值的“正态分布的一部分”。
我将避免在此处键入公式,而是请您参考Wikipedia文章:https : //en.wikipedia.org/wiki/Tobit_model