革命性的数据挖掘新方式?


21

以下摘录来自施瓦格的对冲基金市场风云作者(2012年5月),这是对一贯成功的对冲基金经理贾夫里·伍德里夫(Jaffray Woodriff)的采访:

问一个问题:“人们在数据挖掘中会犯哪些最严重的错误?”:

许多人认为他们还可以,因为他们使用样本内数据进行训练,而使用样本外数据进行测试。然后,他们根据对样本内数据的执行方式对模型进行排序,并选择最佳模型对样本外数据进行测试。人类的趋势是采用在样本外数据中继续表现良好的模型,然后选择那些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它挑选了在样本外期间效果最好的模型。这是人们最常见的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。

然后,面试官问:“您应该怎么做?”:

您可以寻找平均而言所有样本外模型都能正常运行的模式。您知道,如果样本外模型的平均值占样本内分数的很大百分比,则您做得很好。一般而言,如果样本外结果超过样本内结果的50%,您的确可以得到帮助。如果SAS和IBM正在构建出色的预测建模软件,则QIM的业务模型将永远无法运作。


我的问题
这有意义吗?他什么意思?您是否有线索-甚至可能是提议方法的名称和一些参考资料?还是这个人找到了其他人都无法理解的圣杯?他甚至在这次采访中说,他的方法有可能彻底改变科学。


4
他不是在简单地讨论单个拆分样本(训练和验证)中的错误并提倡嵌套的交叉验证过程吗?
B_Miner

12
我会警惕有人声称有深刻的见解会彻底改变“科学”。
主教

2
对冲基金经理声称“一种更好的建模方法”,并且在谈论竞争时有些垃圾?那里没有新东西。
zbicyclist 2012年

2
哇,这个问题怎么这么多?样本外预测是任何入门机器学习课程的第一天都会讨论的问题。有些人没有正确处理样本外的预测,但肯定没有人对预测的任务有丝毫线索。
user4733 2012年

交易当然是一个时间问题,他所说的似乎是交叉验证(当然使用已知数据)不能解决结构随时间变化的问题,所以这不是圣杯。但是他的实际行为无法推断。
kjetil b halvorsen

Answers:


6

这有意义吗?部分地。

他什么意思?请问他。

您是否有线索-甚至可能是提议方法的名称和一些参考资料?

交叉验证。http://en.wikipedia.org/wiki/Cross-validation_(统计信息)

还是这个人找到了其他人都无法理解的圣杯?没有。

他甚至在这次采访中说,他的方法可能会彻底改变科学……也许他忘记了包括该陈述的参考文献……


2
好吧,至少他指出了一个真正的问题……

8

不知道是否还会有其他“保证”响应,但这是我的。

交叉验证绝不是“新的”。此外,找到分析解决方案时不使用交叉验证。例如,您不使用交叉验证来估算beta,而是使用OLSIRLS或其他“最佳”解决方案。

我在报价中看到的明显明显的空白是没有任何实际检查“最佳”模型以了解它们是否有意义的概念。通常,良好的模型在某种程度上可以说是有意义的。似乎声称CV是所有预测问题的灵丹妙药。在更高级别的模型结构上也没有设置的争议 -我们是否使用SVM回归树BoostingBaggingOLSGLMSGLMNS。我们是否对变量进行正则化?如果可以,怎么办?我们是否将变量分组在一起?我们是否希望稀疏性强健?我们有离群值吗?我们应该对数据进行整体还是分段建模?基于简历的方法太多,无法确定。

另一个重要方面是可以使用哪些计算机系统?数据如何存储和处理?是否有失踪者-我们该如何解决?

最重要的是:我们是否有足够的数据来做出正确的预测?我们的数据集中没有已知变量吗?我们的数据能代表我们要预测的一切吗?

KK2折叠数据而相关的。

此外,我个人还没有看到在计算机密集型CV和较便宜的方法(如REMLVariational Bayes)之间进行权衡的比较。花费额外的计算时间,我们能得到什么呢?似乎CV在“小型npnpnp


9
不错的咆哮。会一直更容易阅读,如果你想用偶尔的帽子,但...
MånsT

4

他对数据挖掘中常见错误的解释似乎是明智的。他对自己所做的事情的解释没有任何意义。当他说“通常来说,如果样本外结果超过样本内50%的话,您真的可以到达某个位置”是什么意思?然后糟糕的SAS和IBM也不会让他看起来很聪明。人们可以在不了解统计数据的情况下在市场上取得成功,而成功的一部分就是运气。将成功的商人当作预测专家是错误的。


1
引述语句的含义不是很清楚吗?根据模型的使用方式,他说他所做的可能很有道理。例如,只要人们对可解释性的需求很少,那么来自Netflix挑战的主要“收益”似乎就是“模型融合”的力量。在那种情况下,所考虑模型的样本性能的某些“平均”可能是完全相关的。
红衣主教2012年

@cardinal:您能从这些非常有趣的想法中得出答案吗?太好了,谢谢!
vonjd 2012年

2
@cardinal也许您很清楚,但是然后解释一下句子“如果样本外结果超过样本内50%,则您将真正到达目的地”。如果您说跨模型进行平均可以有效,那么我当然可以同意。已经证明增强在许多应用程序中都能很好地工作。但是我看不出伍德里夫的话从何而来。
Michael R. Chernick

2
我显然不知道伍德里夫先生所声称的细节,但我根据摘录对这一说法的解释产生了以下影响:我认为相关]在拟合模型后至少要比样品内性能好一半,这对我的应用有意义。” 我是数学家/统计学家,所以我需要警告。如果我是一家寻求外部认可的对冲基金经理,那么我的言论可能会更加宏大和绝对。
主教

1
@cardinal因此,以错误率作为性能度量,然后您解释Woodriff说如果样本内错误率是5%,样本外错误率是10%,那么该方法是否好?为什么不仅仅看样本外性能来决定?我想样本外性能与样本内性能的比率可以告诉您样本内错误率估算值的可靠性/不可靠程度,但我认为它不会影响分类器性能的评估。我仍然看不到模型融合在他的评论中出现的地方。
Michael R. Chernick

4

您可以寻找模式,在这些模式下,平均而言,所有样本外模型都可以继续保持良好状态。

我对单词模式的理解这里是,他表示不同的市场条件。天真的方法将分析所有可用数据(我们都知道更多的数据会更好),以训练最佳的曲线拟合模型,然后对所有数据运行它,并一直进行交易。

比较成功的对冲基金经理和算法交易员使用他们的市场知识。作为一个具体示例,交易时段的前半小时可能会更加不稳定。因此,他们将在所有前半小时的所有数据上以及所有数据(不包括前半小时)的所有数据上尝试模型。他们可能会发现,他们的两个模型在前半小时表现良好,但是其中八个却亏本了。而当他们排除前半小时时,他们的七个模型可以赚钱,三个模型可以亏钱。

但是,他们说,与其采用这两个获胜的模型并在交易的前半小时使用它们,不如说这对算法交易来说是糟糕的一天,我们根本不会进行交易。其余的时间,他们将使用他们的七个模型。也就是说,在那个时候,使用机器学习似乎更容易预测市场,因此这些模型在未来具有更大的可靠性。(一天中的时间并不是唯一的模式;其他时间通常与新闻事件有关,例如,在宣布关键经济数据之前,市场更加动荡。)

那是我对他在说什么的解释;这可能是完全错误的,但我希望它仍然是有益于某些人思考的食物。


2

作为金融专业人士,我了解足够多的上下文,因此该声明没有任何歧义。金融时间序列通常具有制度变更,结构中断和概念漂移的特征,因此,在其他行业中进行的交叉验证在金融应用中并不那么成功。在第二部分中,他指的是一种财务指标,不是夏普比率的投资回报率(分子的回报率),不是MSE或其他损失函数。如果样本内策略产生10%的回报,那么在实际交易中,它实际上可能只产生5%。“革命性”部分肯定是关于他专有的分析方法的,而不是引号。


唯一要解决的问题:您是否知道使用财务指标作为参数优化工具的工作,即通过最大化该指标而不是使用最大可能性直接优化参数?
kjetil b halvorsen

@kbh这不是我的财务指标-为锐化率进行优化非常普遍。ssrn.com/abstract=962461就是我头上的一个例子-没有建立确切的统计模型,而是创建了交易规则(以非常笼统的方式)以最大化回报并最小化风险。
onlyvix.blogspot.com
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.