我主要有计算机科学背景,但是现在我想教自己一些基本数据。我有一些我认为具有泊松分布的数据
我有两个问题:
- 这是泊松分布吗?
- 其次,是否可以将其转换为正态分布?
任何帮助,将不胜感激。非常感谢
我主要有计算机科学背景,但是现在我想教自己一些基本数据。我有一些我认为具有泊松分布的数据
我有两个问题:
任何帮助,将不胜感激。非常感谢
Answers:
1)所描绘的似乎是以条形图绘制的(分组的)连续数据。
您可以很肯定地得出结论,它不是泊松分布。
泊松随机变量的取值为0、1、2,...,并且只有在均值小于1时,峰值才为0。如果您绘制了类似的Poisson数据图表,则可能如下图所示:
第一个是泊松,它显示出与您相似的偏度。您可以看到其平均值很小(约0.6)。
第二个是泊松(Poisson),其含义与您的相似(非常粗略的猜测)。如您所见,它看起来很对称。
您可以具有偏度或较大的均值,但不能同时具有两者。
2)(i)您无法使离散数据正常化-
使用分组的数据,使用任何单调递增的变换,您可以将组中的所有值移动到同一位置,因此最低的组仍将具有最高的峰值-请参见下图。在第一个图中,我们移动x值的位置以使其与正常cdf紧密匹配:
在第二个图中,我们看到了变换后的概率函数。我们真的不能实现像正常这样的东西,因为它既离散又歪斜。无论向左还是向右推动,第一组的大跃进都将仍然是一个大跃进。
(ii)连续偏斜的数据可能会转换为看起来合理的正常。如果您有原始(未分组的)值并且它们不是高度离散的,则可以执行某些操作,但是即使这样,当人们试图转换其数据时,这通常是不必要的,或者可以通过其他方式(通常更好)解决其潜在问题。有时,转换是一个不错的选择,但通常出于不太好的原因而进行转换。
那么...你为什么要改变它?
发布更多有趣的信息以供后代使用。
有一篇较旧的文章讨论了有关使用计数数据作为逻辑回归的自变量的类似问题。
这里是:
正如Glen所提到的,如果您只是试图预测二分法的结果,则可能会将未转换的计数数据用作逻辑回归模型的直接组成部分。但是,请注意:当两个自变量(IV)都是泊松分布,并且使用原始值在多个数量级范围内时,可能会产生极高的影响力点,从而可能使模型产生偏差。在这种情况下,对IV进行转换以获得更可靠的模型可能会很有用。
诸如平方根或对数的转换可以增强IV与优势比之间的关系。例如,如果X的三个完整数量级的变化(偏离中值X值)仅对应于Y发生概率仅有0.1的变化(偏离0.5),那么可以很安全地假设任何模型差异都会由于异常X值的极端杠杆作用,导致明显的偏差。
为了进一步说明,假设我们想使用各种辣椒的Scoville评分(domain [X] = {0,320万})来预测一个人将辣椒归类为“不舒服的辛辣”的可能性(range [Y] =吃了等级X的胡椒后,{1 =是,0 =否})。
https://en.wikipedia.org/wiki/Scoville_scale
如果查看scoville评分表,您会发现原始Scoville评分的对数转换将使您更接近每个辣椒的主观(1-10)评分。
因此,在这种情况下,如果我们想建立一个更强大的模型来捕获原始斯科维尔额定值和主观热额定值之间的真实关系,则可以对X值执行对数转换。通过这样做,我们可以通过有效地“缩小”相差几个数量级的值之间的距离来减小X域的影响,从而减少任何X离群值的权重(例如,那些对辣椒素不耐和/或疯狂的香料恶魔! !!)有我们的预测。
希望这会增加一些有趣的环境!