您对这些分析技术是否有全球视野?


24

我目前正在一个项目上,就像我们所有人一样,我基本上需要了解输出与输入。这里的特殊性是一次将数据提供给我,因此我想在每次收到新的时更新分析。我相信这被称为“在线”处理,而不是“批处理”,在批处理中,您拥有所需的所有数据,并同时使用所有数据进行计算。x y x y x yx(y,x)(y,x)

因此,我四处寻找想法,最后得出的结论是,世界分为三个部分:

  • 第一部分是统计和计量经济学领域。人们在那里进行OLS,GLS,仪器变量,ARIMA,测试,差异差异,PCA等。该焊盘主要由线性决定,并且仅进行“批处理”。

  • 第二部分是机器学习和诸如人工智能,有监督和无监督学习,神经网络和SVM之类的词汇的孤岛。“批处理”和“在线”处理都在这里完成。

  • 第三部分是我刚刚发现的整个大陆,似乎大部分由电气工程师组成。在那里,人们经常在他们的工具中添加“过滤器”一词,他们发明了很棒的东西,例如Widrow-Hoff算法,递归最小二乘Wiener过滤器Kalman过滤器,以及可能还没有发现的其他东西。显然,他们主要进行“在线”处理,因为它可以更好地满足他们的需求。

所以我的问题是,您是否对这一切抱有全球视野?我的印象是,世界上这三个部分彼此之间的交谈不多。我错了吗?有一个统一的大理论来理解与吗?您是否知道可以为该理论奠定基础的任何资源?XYX

我不确定这个问题是否真的有意义,但是在所有这些理论之间我有点迷茫。我想象对“我应该使用这个还是那个?”这个问题的答案。将是“这取决于您要做什么(以及您的数据)”。但是,我觉得这三个世界试图回答同一问题(?),因此应该有可能对这一切有更高的了解,并深刻理解每种技术的特殊性。y=f(x)


我认为这些天前两个区域之间的交流更多。很好的问题!
Zach

炸药主题和写得很好的问题!
rolando2 2011年

1
请制作此CW。
主教

1
我自称统计学家,但是我做很多在线工作,做各种非线性建模,至少涉猎了一点AI。我认为典型工具的差异与人们往往会遇到的各种问题有关。他们的问题汇合之处,迟早他们会倾向于找到或重新发明相同的工具(通常使用不同的名称,但钟声和口哨声略有不同)。
Glen_b-恢复莫妮卡

Answers:


4

在批处理还是在线处理方面,我的经验告诉我,有时您将两者结合在一起。我的意思是,您让繁重的工作(即计算与模型制定相关的密集工作)离线完成,然后采用快速/自适应程序来使用这些模型。我们发现“新数据”可以通过三种方式使用:1.简单地预测 2.修改已知模型的参数,并且3.修改参数并可能修改模型。这三种方法已用于“实时分析”,当然完成这三个步骤之一的时间取决于所使用的软件和可用的硬件。

现在到关于如何对y vs x建模的另一点。我更喜欢使用回归的扩展版本(称为传递函数或ARMAX模型)作为提取y历史以及x的当前值和pas值的影响的基础。至关重要的是,必须验证高斯要求,并通过ARMA组件为遗漏的确定性结构(通过异常值检测)和遗漏的随机结构两者合并作为必要的代理。此外,还需要确保没有使用过多的数据(用于参数一致性测试),并且要确保由确定性/随机误差方差和/或y的期望值与方差的方差之间的联系所导致的任何非恒定误差方差。残差。

现在,在历史上(或者您希望的话,歇斯底里地)不同的思想孤岛试图制定方法。我们的祖先使用的许多临时模型可以证明是传递函数的子集,但是可以想象会有一些数据集会挑战传递函数的假设。尽管这些数据集可能存在,但除非分析得出结论,否则不应假定它们会直接影响您。

诸如Wei(Addison-Wessley)或Box-Jenkins之类的文字应提供合理的路线图,以支持我的朋友并引导您获得更多“答案”

顺便问一下,这是一个很大的问题!

另外,如果您有任何要使用的数据,我可以演示此处概述的各种选项。请将您的数据发布到网络上,以供所有人查看和使用,以将“ y与x”相关联。


感谢您的回答!如果有时间,我会对此进行更深入的研究,也许我会尽快回复您。我必须说我不知道​​ARMAX模型。我想我应该直接研究所有内生的VAR。至于数据,实际上我们还在为项目构建其他内容,因此我现在没有很多相关数据。但是,非常感谢您,您应该再次收到我的来信!
亚瑟

“验证高斯要求”:高斯/非参数/忘记建模(步调为Breiman)不是一个深层的分裂吗?
denis

2

Breiman在“ 统计建模:两种文化 ”中解决了这个问题。对一个极好的问题的第一反应。


谢谢!您的链接对我不起作用,链接有效,而链接直接指向pdf。我只在文本中随机阅读了摘要和某些部分,它看起来非常有趣。不过,这些家伙似乎完全是“反经典统计”。再次感谢。
亚瑟

太好了-我更新了链接。读起来很有趣-尽情享受吧!
Ram Ahluwalia

这里讨论了布雷曼的“两种文化” :一些有趣的观点,但是很难改变甚至不能解释一个人的思维定势。
denis

1

我怀疑这个问题的答案类似于“没有免费的午餐”。统计学家,计算机科学家和电气工程师开发出不同算法的原因也许是,他们对解决各种问题感兴趣。


0

我要说的是,您指出的这三组实际上只是两组:

  • 统计
  • 机器学习,人工智能和模式识别。

与信号滤波相关的所有分支都基于两个方面:特征提取(小波,Gabor和Fourier)属于模式识别,而离散Fourier变换属于硬数学。实际上,数字滤波更接近工程学方面,因为它试图通过简单且计算成本低的算法来解决此模式识别问题。但从本质上讲,它是机器学习。

此外,滤波,小波,Gabor和傅立叶被广泛用于图像处理,是人工视觉的核心。

统计和机器学习之间存在差异。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.