如何讨论多条新兴线的散布图?


11

我们已经测量了两个变量,散点图似乎暗示了多个“线性”模型。有没有办法尝试提炼那些模型?事实证明,确定其他自变量是困难的。

两个变量的散点图

这两个变量都向左偏斜(偏小),这是我们域中的预期分布。点的强度表示此处的数据点数量(以比例)。 < x y >log10<x,y>

或者,是否有办法将这些点聚类?

在我们的领域中,声称这两个变量线性相关。我们正在尝试了解/解释为什么我们的数据不是这种情况。

(注意,我们有1700万个数据点)

更新:感谢您提供所有答案,以下是一些要求的说明:

  • 这两个变量都是整数,这解释了对数散点图中的某些模式。
  • 幸运的是,根据定义,两个变量的最小值均为1。
  • 7M点位于(由数据的左偏度“解释”)<3,1>

以下是要求的地块:

log-log散点图: 日志中的散点图

(空格由整数值引起)

对数对数极坐标: 极坐标 θ=y

比例直方图: 比例直方图

频率以对数刻度表示,因为条为7M点,并且会隐藏其他条。1/3


2
该图在极坐标 什么样的?(建议先取和对数(如果需要,还可以加上一个小的起始偏移量,以避免零)。)由于所有线似乎都是从原点辐射的,所以可以想到-特别是如果变化线周围看起来是等距的-然后您要做的就是将维度中的点聚类。(r,θ)XYθθ
ub

获得Y和X是否涉及比例?是否只包含离散值的变量?它如何显示为对数-对数图?
Glen_b-恢复莫妮卡2014年

1
@whuber&Glen_b我添加了具有这些变换的图。
戴维·兰德曼

谢谢戴维。我应该更清楚地使用极坐标:通过在水平轴上绘制和在垂直轴上绘制,原始图上的任何径向线都将显示为完美的水平线。不仅可以轻松地在视觉上对其进行检测(我们的眼睛具有内置处理功能,可以识别水平线性特征),而且一旦检测到它们,就可以使用仅基于的聚类分析对其进行处理。通过对坐标(特别是)应用非线性变换,您的“对数-对数极坐标”图会破坏这些不错的特性。rθθθ
ub

@whuber我已经更新了情节,将theta放在y上,这是你的意思吗?
戴维·兰德曼

Answers:


7

您可能会因物理上或记录内容上的限制而产生伪像(最简单的是,仅整数)。完全匿名的和不会对这种情况如何产生任何自信的猜测,但是看起来有些受到青睐,我当然会关注该比率的分布。而且,如果是这样,根据我的经验,除非您确实混合了完全不同的情况,否则寻找单独的模型没有用。(对于“物理地”,请阅读“生物地”或任何副词。)YXY/X

我看的越多,我就越猜想或类的行对于整数很明显,因为值本身就是整数。X/kkXk

不同但可能相关的一点是,对我而言,这些数据需要进行转换。如果它们都是正数,则指示对数。我担心您的数字为零,在这种情况下,如何讨论是可以接受的。例如,可以从图形中猜出处的线。如果为零,则以或多维数据集根作为起誓应该会有所帮助。可以帮助您更清楚地看到模式的任何东西都是可以辩护的。Y=0log(Y+constant)

术语要点:统计中的偏斜是相对于尾部更伸出来描述的。您可以随意将此术语视为倒数。在这里,两个变量都偏向高值,或者正偏或右偏。

更新:感谢您提供额外的图表,这些图表最有帮助。几乎所有猜测都得到证实。(可以说,底线是,而不是)条纹是使用整数的伪影或次要效果,这很可能是唯一或至少最实用的衡量您的内容的方法正在测量(关于该问题保持谨慎)。对数-对数图和其他图显示了离散性。因此,尽管有酌处权,但可以确认离散性。比率1 / 4、1 / 2、1 / 1和2/1有明显的模式(分布峰值)。Y=1Y=0

和以前一样,我不建议在没有科学原因的情况下对不同的条纹进行不同的建模,以区分或分开对待它们。您应该对自己所拥有的东西进行平均。(使用这种数据可能存在一些已知的方法来抑制离散性。如果您所在领域的人们例行地为每个图测量几百万个点,那么很难相信这是以前从未见过的。)

相关性当然应该是正的。除了形式上的显着性检验外,在这种情况下完全无关紧要的是,微小的相关性在此样本量下将具有重要意义,是否被宣布为强则取决于您所在领域的期望和标准。将您的相关性与他人的结果进行定量比较是一种方法。

详细信息:根据统计惯例,偏度仍然被错误地描述。这些变量是右偏的;当用水平幅度轴看直方图并注意到偏斜是为较长的尾部而不是具有更多值的浓度命名时,术语很适合。


我添加了对数-对数图,并尝试更精确地了解偏度。
戴维·兰德曼

4

我认为您想要的工具称为切换回归。想法是有几条回归线,每个数据点都分配给其中一条。例如,第一条回归线的等式为: 回归线 的等式为: 总共说有不同的回归线。对于任何给定的数据点,我们只能看到回归线之一。因此,必须有某种机制来确定我们为每个点看到的回归线。最简单的机制就是多项式分布。也就是说,我们看到了

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmth概率为回归线,其中。 pmmpm=1

通常通过最大似然估计模型。假设分布为,则您将最大化的似然函数为: 函数是标准法线密度。您可以根据约束在参数。如果您要使用拟牛顿法解决该问题,那么这通常是一个有点奇怪的最大化问题。您不能只是将所有和从零开始,ϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm位于。您必须为和提供不同的起始值,以便算法可以“分开”。1Mαβ

如果您愿意,有多种方法可以使此过程更加复杂。也许您有一个变量,您认为它会影响,即哪个变量会影响选择哪个回归。那么,你可以使用一个多项式logit函数使是的函数: ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

现在有参数。实际上,有参数,因为在上需要规范化-在多项式logit上读取以进行说明。5 中号- 1 δ γ5M+15M1δ,γ

使它更复杂的另一种方法是使用某种方法来选择(回归线的数量)。我在自己的作品中对这种选择非常随意,因此也许其他人可以为您指出最佳选择方式。M


2
当存在几种不同的制度以及它们为什么存在的一些独立理由时,这可能是一个自然的模型。这里有很多对角线条纹-可以猜想在对数刻度上会更明显-选择的问题对于这种方法至关重要,而不是偶然的,这似乎暗示了这一点。M
尼克·考克斯

2

我在某些数据集中观察到了类似的行为。在我的情况下,多条不同的线是由于我的一种处理算法中的量化误差引起的。

也就是说,我们查看处理后的数据的散点图,并且处理算法具有一定的量化效果,从而导致数据中的依赖性与上面的情况完全相同。

修复了量化影响,使我们的输出看起来更加平滑且不成块。

至于你的“线性相关”评论。您提供的内容不足以确定此数据是否线性相关。也就是说,在某些领域中,> 0.7的相关系数被认为是强线性相关。鉴于您的大多数数据都在原点附近,因此可以想象,您的数据与“传统智慧”所说的是线性相关的。相关性很少告诉您有关数据集的信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.