检查具有统计意义的峰值


14

我有一组数据y和。我想检验以下假设:有一个峰值。也就是说,随着增加,首先增加,然后减少。xyxy

我的第一个想法是将和在SLR中。也就是说,如果我发现之前的系数显着为正,而之前的系数显着为负,那么我支持该假设。但是,这仅检查一种关系(二次关系),并不一定捕获峰值的存在。xx2xx2

然后我想到了找到,即一个区域(排序值),在和之间,另外两个区域至少包含与一样多的点,并且 \ bar {y_b}> \ bar {y_a}\ bar {y_b}> \ bar {y_c}。如果假设是正确的,那么我们应该期望有很多这样的区域b。因此,如果b的数量足够大,则应该支持该假设。bxbacxbyb¯>ya¯yb¯>yc¯bb

您是否认为我在为我的假设找到合适的检验的正确道路上?还是我发明了轮子,并且有解决此问题的方法?非常感谢您的投入。

更新。我的因变量是count(非负整数)。y


是否随x平滑变化?如果是这样,您可以尝试拟合包括平滑器(例如GAM)的模型,然后计算拟合的平滑器的一阶导数及其置信区间。如果导数是显着增加的,则显着减少是个答案。yx
恢复莫妮卡-G.辛普森

Answers:


6

我也在考虑平滑的想法。但是,有一个称为响应面方法的整个领域都在嘈杂的数据中搜索峰值(它的确主要涉及对数据进行局部二次拟合),而且我记得有一篇著名的论文,标题中带有“凸点搜索”。以下是一些有关响应面方法的书籍的链接。雷·迈尔(Ray Myer)的书写得特别好。我会尝试找到凹凸的猎纸。

响应面方法:使用设计的实验进行过程和产品优化

响应面方法和相关主题

响应面方法

经验模型建立和响应面

虽然不是我要找的文章,这里是杰里·弗里德曼和尼克·费舍尔非常相关的文章,随着这些想法的交易适用于高维数据。

这是一篇带有一些在线评论的文章。

因此,我希望您至少感谢我的回应。我认为您的想法不错,而且步伐正确,但是,确实,您可能正在重新发明轮子,希望您和其他人会参考这些出色的参考资料。


3
我并不算是低调的人,但是SE网站上的Answers不仅仅是内容的链接。汇总内容或提供摘要响应,然后链接到内容以获取更多详细信息会更好。
恢复莫妮卡-辛普森(G. Simpson)

2
我对此表示赞同,因为(1)它代表了一个好主意;(2)它确实有一些评论; (3)通过一些精心选择的链接提供支持,包括免费提供的资料。是的,它看起来在印刷上很糟糕,因为链接的格式可能更好:但是我希望人们在投票决定时不要对答案的这一方面大加权衡!
ub

1
@whuber由于Procastinator的格式不错,因此我可以清晰地阅读它后表示同意。+1。我认为这里有足够的摘要,除了基本思想和可供进一步阅读的参考资料外,有些话题几乎太复杂了。
Erik

5
@MichaelChernick注意,这不是一个批评来自我,只是提供为什么人们可能会投下来的理由。如果那是原因,我将不同意他们的意见,因为我认为您的答案是正确的,尤其是对于PRIM;我只是在咨询我的Hastie等人(2009)关于PRIM的说法。您可能想要将该链接添加到答案,因为那里有关于PRIM的两个部分,并且PDF是免费的。
恢复莫妮卡-G.辛普森

1
@Nikita您要检验的正式统计假设是什么?首先,您必须找到峰,这是其中很大的一部分。您是否正在测试峰值不仅仅是噪声的结果?我不确定有什么文献可以解决这个问题,但我想您可以将多项式回归拟合到数据中(也许是局部二次方程式)。据此,您可以估算出剩余方差。二次项的统计显着性将检验峰的显着性。
Michael R. Chernick

1

即使您尚未回答我的问题,但如果我的猜测正确,您仍在寻找白噪声测试,该白噪声在频域内足以表明频谱是平坦的。因此,可以使用费舍尔的周期图检验(在本参考文献中称为费舍尔kappa)。请参阅链接。

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

参考中还提到了Bartlett的测试。现在,拒绝零假设就等于在周期图中找到了一个明显的峰值。这将意味着时间序列中存在一个周期性成分。

因为测试在频域中并且涉及周期图纵坐标,所以纵坐标在原假设下具有卡方2分布并且是独立的。这种特殊的分布仅由于转换到频域而产生。如果x是时间,则在时域中将不起作用,或者通常y的分布将不是独立的卡方。

但是,使模型y =常数与x无关。使用y m,ys的平均值作为常数的估计值。然后,测试是否存在峰值将等于拒绝残差形成白噪声序列。m


我在该网站上询问的次数越多,我学到的=)就越多,这一次涉及白噪声测试以及我需要在我的问题中提供足够的信息。抱歉,您未及早回答您的问题。我认为当误差呈正态分布时,残差的白噪声测试将是合适的,但是我的因变量实际上是计数。因此,在任何情况下,我都不希望残留物中出现白噪声。还是我错过了什么?y
Nikita Samoylov

y是计数数据,x是连续的解释变量吗?我以前的建议可能不是这种情况,但是最近有很多关于计数模型的文献。因此,如果您可以更加具体地说明数据和问题,也许我可以指出一个解决方案。
Michael R. Chernick

是的,是计数,x是连续的(但不是负数)。不知道还有哪些其他信息很重要。yx
Nikita Samoylov 2012年

我不确定这是否会有所帮助,但Cameron和Trivedi出版了一本关于计数回归模型的书,并于2013年出版了第二版。这是一些信息的链接:cameron.econ.ucdavis.edu/racd/count .html
Michael R. Chernick,2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.