是正态分布但高度偏斜的分布是否被视为高斯分布?


12

我有一个问题:您认为每天在YouTube上花费的时间分布如何?

我的回答是,它可能呈正态分布并且高度偏左。我期望有一种模式,大多数用户会花一些平均时间,然后右尾较长,因为有些用户压倒了高级用户。

这是一个公平的答案吗?有更好的词来表示这种分布吗?


4
正如一些答案所提及但并未强调的那样,偏斜是非正式地为较长的尾巴(如果有的话)命名的,因此右偏斜则是较长的右尾巴。如在此上下文中所使用的,左和右均以遵循在水平轴上显示幅度的约定为前提进行显示。如果听起来太明显,请考虑地球和环境科学中的显示,其大小为高度或深度,并垂直显示。小字体:即使分布在几何上是歪斜的,某些歪斜度的度量也可以为零。
尼克·考克斯

1
所有用户每天的总时间?还是每人每天的时间?如果是后者,那么肯定有一个中等大穗为0,在这种情况下,你可能需要用狄拉克δ一个“穗和平板”式分布在0
悦诗风吟

6
“正态”与“高斯”同义,高斯分布(也称为正态分布)不偏斜。
Michael Hardy

我发现标题中的问题与正文中的问题有很大不同。或者至少标题很混乱。没有分配是“正常但高度偏斜”的,这是一个矛盾。同样,高斯分布的定义非常好,完全不像每天在YouTube上花费的时间分布。因此,标题中问题的答案是“否”。f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus

2
同样,最后的问题是“这种分布是否有更好的词?” 非常模糊或广泛。这些信息似乎只是“一种模式”和“一条长长的右尾巴”(“可能正态分布”的部分毫无意义)。可以有许多满足这些条件的分布。令人惊讶的是,在我们实际上试图澄清这个问题(甚至没有数据)之前,这个问题吸引了十多个答案,并且至少有这么多的替代分布建议。
Sextus Empiricus

Answers:


14

每天一小部分肯定不是负数。这排除了正态分布,该正态分布在整个实轴上(尤其是在负半数上)具有概率质量。

幂律分布通常用于建模诸如收入分布,城市规模等事物。它们是非负的,并且通常存在高度偏差。这将是我第一次尝试模拟观看YouTube的时间。(或监视交叉验证问题。)

有关功率定律的更多信息,请参见此处此处,或在我们的标签中。


16
您完全正确的是,正态分布在实际生产线上具有支持。但是...对于某些严格的积极素质,例如成年人的身高或体重,它们并不是一个可怕的模型,其均值和方差使得负值在该模型下极不可能出现。
马特·克劳斯

2
@MattKrause这实际上是一个很大的问题-我是否有相同的可能性会“在平均身高之上或之下10厘米”或“在平均身高之上或之下10%”?只有第一种情况才能保证正态分布。
托马什卡夫卡

1
@MattKrause:我完全同意。但是,当前的问题是每天在YouTube上花费的时间比例。我们没有任何数据,但是如果分布甚至是远程对称的,我将感到非常惊讶。
Stephan Kolassa,

43

正常的分布不会高度偏斜。那是一个矛盾。正态分布的变量的偏斜= 0。


1
有什么更好的描述分布的方法?对于这种分布类型,是否有一个单词围绕一个模式然后长尾?
考德

13
单峰和偏斜离我
越近越好

9
顺便说一句,人们花时间帮助其他人在这方面做得更好,真是令人难以置信。我知道这不用说,但是你们俩都做得太酷了!
考德

6
是的,但值得澄清的是,该陈述与正态分布的人群有关。从该总体中抽取的样本可能会非常偏斜。
gung-恢复莫妮卡

当偏斜值较小时(“小”由处理相关统计数据的人员决定),尽管结果会出现较小的误差,但您仍然可以将总体视为正常。
卡尔·威索夫特


13

它可能是对数正态分布。如此处所述

用户对在线文章(笑话,新闻等)的停留时间遵循对数正态分布。

给出的参考是:尹培峰;罗平;李王建;王敏(2013)。沉默也是证据:从心理学的角度解释停留时间以进行推荐。ACM关于KDD的国际会议。


7

“有更好的词汇来表示这种分布吗?”

在这里用词来描述发行版的属性与尝试为发行版寻找一个“名称” 之间存在一个有意义的区别,以便您可以将其标识为(近似)特定标准发行版的一个实例:或可能存在用于其分布函数的统计表,您可以为其估计参数。在后一种情况下,您可能会使用命名分布,例如“正态/高斯”(这两个术语通常是同义词),作为捕获数据某些关键特征的模型,而不是声称数据的总体是从得出的完全符合该理论分布。为了稍微误导乔治·Box,所有模型都是“错误的”,但有些有用。如果您正在考虑建模方法,则值得考虑要合并哪些功能以及希望模型变得多么复杂或简约。

作为正偏态是描述属性的一个例子,该分布具有,但不接近指定哪些关闭的,现成的分布是“该”适当的模型。它确实排除了一些候选对象,例如高斯分布(即正态分布)具有零偏斜,因此如果偏斜是重要特征,则不适合对数据建模。数据的其他属性也可能对您也很重要,例如,它是单峰的(只有一个峰),或者在0到24小时之间(或者在0到1之间,如果您将其写为小数)或某天质量可能集中在零(因为有些人在某一天根本不观看youtube)。峰度。值得记住的是即使您的分布具有“驼峰”或“钟形曲线”形状并且具有零或接近零的偏斜,也不会自动遵循正态分布对其“正确”的提示!,另一方面,由于抽样误差,即使从实际数据中提取的总体确实确实遵循特定的分布您的数据集可能不太相似。小数据集可能是“嘈杂的”,并且可能不清楚您是否可以看到某些功能(例如,其他小驼峰或不对称尾巴)是否是从中提取数据的基础总体的属性(因此,可能应该将其合并)在您的模型中)还是它们仅仅是您特定样本中的假象(出于建模目的,应忽略)。如果您的数据集很小并且偏度接近于零,那么甚至可以认为基础分布实际上是对称的。数据集越大,偏度越大,则变得越不合理-但是当您可以执行显着性检验,以查看您的数据为从中得出的总体中的偏度提供了有说服力的证据,这可能缺少关于正态(或其他零偏度)分布是否适合作为模型的要点 。 。

数据的哪些属性对您要建模的目的真正重要?请注意,如果偏斜度相当小并且您并不十分在意,即使基础人口确实偏斜了,那么您仍可能会发现正态分布是一个有用的模型,可以近似此观看时间的真实分布。但是,您应该检查一下结果是否不会做出愚蠢的预测。由于正态分布没有最高或最低的可能值,那么虽然极高或极低值变得越来越不可能,你总能找到你的模型预测还有一些每天观看负数小时或超过24小时的概率。如果此类不可能发生的事件的预测概率变高,这将给您带来更多问题。像正态分布一样的对称分布可以预测,随着越来越多的人关注时间长度,例如,比平均值高出50%以上,而关注时间比平均值低了不到50%。如果观看时间很偏斜,那么这种预测可能也太愚蠢了,以至于给您误导的结果,如果你正在你的模型的结果,并利用它们作为其他一些通用输入(例如,你正在运行观看时间的模拟,以计算最佳广告投放时间)。如果偏度非常值得注意,您希望将其捕获为模型的一部分,则偏斜正态分布可能更合适。如果要同时捕获偏度和峰度,请考虑偏斜的t。如果要合并物理上可能的上限和下限,请考虑使用截断的这些发行版的版本。存在许多其他可能会偏斜和单峰(针对适当的参数选择)的概率分布,例如F伽马分布,并且您可以再次截断这些分布,以便它们不会预测不可能的长时间观看。 A β分布如果您要模拟一天中的观看时间,则可能是一个不错的选择,因为该时间始终介于0到1之间,无需进一步截断。如果您希望由于非观察者而将概率集中度精确地设为零,那么可以考虑建立一个障碍模型

但是在这一点上,您试图引入可以从数据中识别出的每个功能,并构建一个更加复杂的模型,也许您应该问自己为什么要这么做?更简单的模型是否有优势,例如,更容易进行数学运算或需要较少的参数进行估算?如果您担心这种简化将使您无法捕获所有感兴趣的属性,那么很可能没有任何“现成的”发行版本可以完全满足您的需求。但是,我们不限于使用其数学性质已在前面阐明的命名分布。相反,请考虑使用数据来构建经验分布函数。这将捕获数据中存在的所有行为,但是您不能再给它起“正态”或“伽马”之类的名称,也不能应用仅与特定分布有关的数学属性。例如,“ 95%的数据位于均值的1.96标准偏差之内”规则适用于正态分布的数据,可能不适用于您的分布;但是请注意,某些规则适用于所有分布,例如,切比雪夫(Chebyshev)的不平等保证至少可以无论偏斜如何,您的数据的75%必须在均值的两个标准差之内。不幸的是,经验分布还将继承数据集的所有那些属性,这些属性纯粹是由抽样误差引起的,而不仅是基础总体所具有的那些属性,因此您可能会发现经验分布的直方图存在一些驼峰和下降,而总体本身并没有。您可能需要研究平滑的经验分布函数,或者更好的方法是增加样本量。

总结:尽管正态分布具有零偏斜,但是您的数据偏斜的事实并不排除正态分布是有用的模型,尽管它确实暗示了其他一些分布可能更合适。选择模型时,除了偏斜之外,还应该考虑数据的其他属性,并且还要考虑要使用模型的目的。可以肯定地说,您的观看时间的真实数量并不完全遵循某些著名的命名分布,但这并不意味着这种分布注定不会成为模型。但是,出于某些目的,您可能更喜欢仅使用经验分布本身,而不是尝试为其拟合标准分布。





2

障碍模型怎么样?

障碍物模型分为两个部分。第一个是Bernoulli实验,它确定您是否完全使用YouTube。如果您不这样做,那么您的使用时间显然为零,​​那么您就完成了。如果这样做,您“越过了障碍”,那么使用时间就来自其他一些严格的正分配。

紧密相关的概念是零膨胀模型。这些是为了处理我们观察到一堆零但无法区分始终为零和有时为零的情况。例如,考虑一个人每天吸烟的数量。对于不吸烟的人,该数字始终为零,但是某些吸烟者可能在特定的一天不吸烟(抽烟?长途飞行?)。与跨栏模型不同,此处的“吸烟者”分布应包括零,但这些计数也会因非吸烟者的贡献而“膨胀”。


0

如果分布确实是正态分布的“子集”,则应考虑截断的模型。在这种情况下,广泛使用的是TOBIT模型系列。
他们必不可少地建议一个pdf,其(正)概率质量为0,然后是一个正值的“正态分布的一部分”
我将避免在此处键入公式,而是请您参考Wikipedia文章:https : //en.wikipedia.org/wiki/Tobit_model


-4

根据定义,正态分布是不偏斜的,因此您不能同时拥有两者。如果分布是左偏斜的,则它不能是高斯分布。您将不得不选择另一个!我能想到的最接近您要求的是:

https://zh.wikipedia.org/wiki/Skew_normal_distribution


5
我已经同意,除了OP混淆了左右偏斜之外。@behold已经在回答中建议了偏态法线。因此,我看不到这会增加现有的答案。
Nick Cox

它以简单明了的三行回应总结了其中的许多内容
David

4
对不起,但这仍然是重复。
尼克·考克斯

好...谁在乎?
大卫,

4
好吧,我知道。而在我的评论中加上+1的人(显然不是我),而对您的回答投反对票的人(碰巧不是我)。该线程已经很长且重复;然而,更多的多余评论并不能改善未来的读者。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.