以下摘录来自施瓦格的对冲基金市场风云作者(2012年5月),这是对一贯成功的对冲基金经理贾夫里·伍德里夫(Jaffray Woodriff)的采访:
问一个问题:“人们在数据挖掘中会犯哪些最严重的错误?”:
许多人认为他们还可以,因为他们使用样本内数据进行训练,而使用样本外数据进行测试。然后,他们根据对样本内数据的执行方式对模型进行排序,并选择最佳模型对样本外数据进行测试。人类的趋势是采用在样本外数据中继续表现良好的模型,然后选择那些模型进行交易。这种类型的过程只是将样本外数据转换为训练数据的一部分,因为它挑选了在样本外期间效果最好的模型。这是人们最常见的错误之一,也是通常应用数据挖掘产生可怕结果的原因之一。
然后,面试官问:“您应该怎么做?”:
您可以寻找平均而言所有样本外模型都能正常运行的模式。您知道,如果样本外模型的平均值占样本内分数的很大百分比,则您做得很好。一般而言,如果样本外结果超过样本内结果的50%,您的确可以得到帮助。如果SAS和IBM正在构建出色的预测建模软件,则QIM的业务模型将永远无法运作。
我的问题
这有意义吗?他什么意思?您是否有线索-甚至可能是提议方法的名称和一些参考资料?还是这个人找到了其他人都无法理解的圣杯?他甚至在这次采访中说,他的方法有可能彻底改变科学。