通过方向独立变量来检验正态分布的DV的关联性吗?


10

是否存在关于正态分布因变量是否与方向分布变量相关联的假设检验?

例如,如果一天中的时间是解释性变量(并且假设诸如星期几,一年中的月份等不相关),这就是如何解释11pm 1am 22小时的事实,以及2小时落后于联想的测试凌晨1点?我是否可以测试连续时间是否解释了因变量,而不假设在晚上11:59之后一分钟没有出现午夜12:00?

此测试是否也适用于离散方向性(模块化?)解释变量?还是需要单独测试?例如,如何测试是否按年份月份解释因变量(假设年份的日期和季节以及特定的年份或十年无关紧要)。一年中的月份绝对会忽略顺序。但是将一年中的月份视为标准序数变量(例如Jan = 1 ... Dec = 12)忽略了1月在11月之后的两个月。


1
答案可以填满一本书(其中有几本)。使您的问题更具体可能有助于将答案集中在对您重要的问题上。
ub

@whuber嗯...天哪...你能帮我缩小范围吗?指定DV的发行版?仅限于单个测试,而不是回归?我有些困惑,不知道从哪里开始...
Alexis

@whuber我试图将问题缩小很多,并感谢任何有关使其变得更有用的指示(我真的只是想为思考模块化预测变量提供一个起点)。如果现在的形式还不错,那么我很可能会对DV中无发行的这种测试提出类似的问题。
亚历克西斯

@whuber在回归上下文中考虑离散模块IV:将离散离散IV作为2标识符的两级混合模型,每个2级单元的随机前后效应变量等于数字系统中的前一个值和后一个值是否正确?
亚历克西斯

Answers:


9

总的来说,我认为从提出一个更广泛而又不同的问题开始,从科学和统计学的角度来看,这是更加富有成果的,这是圆形预测器可以预测的响应程度。我在这里说的是圆形,而不是定向的,部分原因是后者包含了球形甚至更神话般的空间,这些空间不可能全部用一个答案覆盖。部分原因是因为你的例子,一天中的时间一年的时间,都是圆形的。另一个主要的例子是指南针方向(与风,动物或人类的运动,路线等有关),它在许多圆形问题中都具有特征:实际上,对于某些科学家来说,这是一个更明显的起点。

只要您能摆脱它,在某种回归模型中使用时间的正弦和余弦函数是一种简单且易于实现的建模方法。这是许多生物学和/或环境实例的第一站。(这两种通常混为一谈,因为表现季节性的生物现象通常直接或间接地对气候或天气产生响应。)

具体来说,想象一下24小时或12个月内的时间测量结果,例如

[2π小时/24]  cos[2π小时/24]

[2π/12]  cos[2π/12]

每个描述整个一天或一年的一个周期。在测得的或计数的响应与某个循环时间之间不存在任何关系的形式化测试将成为标准测试,即在以正弦和余弦为预测因子,适当链接和家族的广义线性模型中,正弦和余弦系数是否共同为零根据响应的性质进行选择。

在这种方法中,响应的边际分布(正态或其他)的问题是次要的和/或由家庭选择来解决。

正弦和余弦的优点自然是它们是周期性的并自动环绕,因此每一天或每一年开始和结束时的值必须相同。边界条件没有问题,因为没有边界。

这种方法被称为圆形,周期,三角和傅里叶回归。有关一篇入门教程复习,请参见此处

在实践中,

  1. 每当我们期望出现季节性变化时,此类测试通常会在常规水平上显示出极其重要的结果。那么,更有趣的问题是估算的精确季节曲线,以及我们是否还需要使用其他正弦项的更复杂模型。

  2. 也没有什么可以排除其他预测因素,在这种情况下,我们只需要包含其他预测因素的更全面模型,例如季节性的正弦和余弦,以及其他所有因素的其他预测因素。

  3. 在某些时候,共同取决于数据,问题以及研究人员的品味和经验,强调问题的时间序列方面并建立具有明确时间依赖性的模型可能变得更加自然。确实,一些具有统计头脑的人会否认还有其他方法可以解决此问题。

容易被称为趋势(但并非总是如此容易识别)的是第2项或第3项,甚至是两者。

通常,与市场,国家和国际经济或其他人为现象的季节性有关的许多经济学家和其他社会科学家通常会对每天或(更常见的)每年内更复杂的可变性产生深刻的印象。通常(尽管并非总是如此),季节性是一种需要删除或调整的麻烦,而生物学和环境科学家则经常将季节性视为有趣且重要的,甚至是项目的主要重点。尽管如此,经济学家和其他人也经常采用回归型的做法也一样,但弹药指标(假人)变量的捆绑,最简单的年的每月变量或每季度01个。这可能是尝试捕捉指定的假期,假期,学年的副作用等以及气候或天气原因的影响或冲击的实用方法。注意到这些差异后,以上大多数评论也适用于经济学和社会科学。

流行病学家和医学统计学家对发病率,死亡率,住院次数,诊所就诊等变化的态度和态度往往介于这两个极端之间。

在我看来,将天或年分成两半进行比较通常是任意的,人为的,并且最好是笨拙的。它还忽略了数据中通常存在的那种平滑结构。

编辑到目前为止,该帐户还没有解决离散时间和连续时间之间的区别,但是根据我的经验,我认为实践中没有什么大不了的。

但是准确的选择取决于数据的到达方式和变化方式。

如果数据是季度数据和人为数据,则我倾向于使用指标变量(例如,季度3和季度4通常不同)。如果是按月和按人计算,选择尚不明确,但是您必须努力将正弦和​​余弦出售给大多数经济学家。如果每月或更精细以及生物学或环境方面,则肯定是正弦和余弦。

编辑2有关三角回归的更多详细信息

三角回归的一个独特之处(如果愿意,可以用其他任何方式命名)是几乎总是将正弦和余弦项最好成对地呈现给模型。我们天的第一标尺时间,一年或罗盘方向,使得它被表示为圆上的角度的时间 弧度,因此在区间[ 0 2 π ]。然后,我们使用尽可能多的对ķ θ COS ķ θ ķ = 1 2 3 ...θ[02π]ķθcosķθķ=1个23根据模型的需要。(在循环统计中,三角惯例倾向于胜过统计惯例,因此希腊符号(例如用于变量和参数。)θϕψ

如果我们提供了对预测器如到回归状模型,那么我们有系数的估计,说b 1b 2,为模型中的术语,即b 1个θ b 2 COS θ。这是一种适合相位以及周期信号幅度的方法。否则,可以将诸如sin θ + ϕ )之类的函数重写为θcosθb1个b2b1个θb2cosθθ+ϕ

θcosϕ+cosθϕ

但是代表相位的sin ϕ是在模型拟合中估算的。这样,我们避免了非线性估计问题。cosϕϕ

如果我们使用到圆形变化进行建模,然后自动将该曲线的最大值和最小值是半圈分开。对于生物学或环境变化,这通常是一个很好的近似值,但是相反地,我们可能还需要更多几个术语才能特别捕获经济季节性变化。这可能是改用指标变量的一个很好的理由,这立即导致对系数的简单解释。b1个θ+b2cosθ


我注意到@Kelvin的答案有些奇怪。
尼克·考克斯

+1(尤其是使用“美妙”为你做!:)尼克考克斯,你会这么好心作出明确的情况下为离散圆形变量也,按我的问题吗?就像您使用离散时间度量描述的“三角建模”方法那样简单吗?还是需要某种“连续性校正”?
亚历克西斯

据我所知,离散和连续圆形变量之间的唯一区别在于将值四舍五入到离散点(例如2pm vs 14.12345hrs),与非圆形变量一样,因此不会有太大差异只要您应用相对于整个期间较小的步骤进行较少的舍入。基本上,这仅是是否存在舍入误差的问题。最好不要,如果可以避免的话。
开尔文

我同意离散和连续没有太大区别。实际上,通过以季度,半年,月,日等为单位进行报告,或以从(N. S)到(N,E,S,W)直至更精细的分辨率等范围内的任何内容,或多或少地粗化了许多测量结果指南针方向。详细地说,点测量(精确时间的温度)和间隔测量(例如,每月总销售额)之间存在差异。我不会将所有这些细节都集中在一起,例如舍入错误,因为有时没有汇总或平均这样的错误。
Nick Cox

4

这是一个无需发行的选项,因为无论如何看来这就是您要寻找的。我并不十分了解循环统计领域,但是它在这里以及许多其他场合都适用。

让你的定向变量X

让其他变量是,其可以在位于ř d为任何d 1(或者,实际上,在其上有用内核可以定义任何类型的对象:图形,字符串,图像,概率分布,从概率分布的样品, ...)。ÿ[Rdd1个

定义,并假设您有m个观测值z i = x iy iž:=Xÿž一世=X一世ÿ一世

现在,使用希尔伯特·施密特独立标准(HSIC)进行测试,如以下论文所示:

Gretton,Fukumizu,Teo,Song,Schölkopf和Smola。独立性的核心统计检验。NIPS2008。(pdf

那是:

  • X定义内核。这里我们指的是内核方法内核,即RKHS的内核。ķX

    • 一种选择是在R 2的单位圆上表示(如在Kelvin的编辑中所示),并使用高斯核k x x '= exp 1X[R2。这里σ定义你的空间的平滑度; 将其设置为X点之间的中值距离通常就足够了。ķXX=经验值-1个2σ2X-X2σX
    • X[-ππ]ķXX=经验值κcosX-Xκ
  • ÿÿ[Rñ

  • Hķ大号×ķ一世Ĵ=ķX一世XĴ大号一世Ĵ=ÿ一世ÿĴH H=一世-1个1个1个Ť1个2Ť[RķH大号H

第一手作者在此处提供了使用RBF内核执行该任务的Matlab代码。


这种方法很好,因为它是通用的,并且往往表现良好。主要缺点是:

  • 2
  • ķ


ķX-X[-ππ]


3

您可以在该期间相对的“一半”的平均值之间进行t检验,例如,将12am到12pm的平均值与12pm到12am的平均值进行比较。然后将6pm到6am的平均值与6am到6pm的平均值进行比较。

或者,如果您有足够的数据,则可以将时间段分成较小的段(例如,每小时),并在每对段之间进行t检验,同时校正多个比较。

另外,对于更“连续”的分析(即,没有任意分段),您可以针对方向变量的正弦和余弦函数(具有正确的周期)运行线性回归,这将自动“循环化”数据:

X=s一世ñX2π/pË[R一世Ød
X''=CØsX2π/pË[R一世Ød

一个

X=s一世ñX+一个2π/pË[R一世Ød

一个

ÿXX''

无论如何,我认为您必须对期限做出一些假设,然后进行相应的测试。


开尔文,“破”的循环数据你描述似乎忽略正是我提出了模块化的排序问题。
亚历克西斯

您是否阅读了我的答案的后半部分,该部分描述了通过多元回归进行的连续分析?
开尔文

你对正弦和余弦是正确的。在我的回答以及2006年的论文中对此进行了进一步解释,并在引用的其他参考文献中进行了解释。
Nick Cox

@Nick-我上次编辑后没有看到您发布的答案,但是很好,我们独立地得到了相同的答案,因为我只是在发挥创造力(实际上是在大声思考),而且从未真正看到过这样做。
开尔文
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.