“让数据说明一切”是什么意思?


10

在阅读以下论文时,我遇到了以下声明:

如上所述,与Benzecri [1973]提出的“让数据不言自明”的想法一致,它通常在未提及任何概率模型的情况下提出。

(引自JPBenzécri。L'analyse desdonnées。《 Tome II:L'analyse des通信》。Dunod,1973年。)

从我阅读本文的方式来看,听起来像“让数据自己说出来”意味着在考虑跨数据的各种度量的过程中无需考虑似然函数或数据生成过程

虽然我之前曾听过“让数据说明一切”的名言,但我并没有认真考虑隐含的含义。我的上述解释是这个报价所暗示的含义吗?


9
让报价不言自明。
马克·L·斯通

@ MarkL.Stone:就像数据一样,引号也可以根据上下文更好地理解
Cliff AB

Answers:


8

解释取决于上下文,但是在某些常见上下文中会出现这种情况。该语句经常在贝叶斯分析中用来强调以下事实:我们理想地希望分析中的后验分布对先验假设具有鲁棒性,以便数据的影响“支配”后验。更一般而言,引号通常表示我们希望统计模型符合数据的结构,而不是强迫数据进行解释,这是该模型的不可验证的结构假设。

您所引用的特定报价会被附加的报价所补充:“模型必须遵循数据,而不是相反”(译自BenzécriJ(1973)L'Analyse desDonnées。Tome II:L'Analyse des Correspondances ( Dunod,第6页)。Benzécri认为统计模型应该从数据中提取结构,而不是强加结构。他认为使用探索性图形方法非常重要,以使分析师“让数据说话”。


(+1)考虑到这一点,我想第一篇链接论文中的引言暗示这意味着这些方法着眼于经验协方差结构,而不是基于模型的依存关系结构。
Cliff AB

1
是的,我认为是正确的。值得注意的是,Benzécri声称数据分析基本上等同于PCA中的特征分解。引用他的话来说,“总而言之,以良好的数学进行数据分析只是在搜索特征向量;所有它的科学(或艺术)都是在寻找对角化的正确矩阵。” (请参见Husson等人,2016年,第2页)
Ben-Reinstate Monica

2
哈,这是他提出的一个非常有趣的主张。这种情况使本文中的引用更为合理。
Cliff AB

是的,这非常极端!
本-恢复莫妮卡

(+1)。乍看之下,报价似乎很难不同意(毕竟为什么要“强加”一件好事?),例如,非参数统计中的维数诅咒表明它确实可以说是,当我们通过参数模型聆听数据时,更容易聆听数据本身。
Christoph Hanck

1

早在2005年左右,“数据挖掘”是对统计专业的最新威胁时,我记得曾看到一张标有“数据挖掘原理”的海报,其中一个海报是“让数据说话”(不记得是否“为了自己”)包括在内)。如果您想到的是可能被认为是“数据挖掘”,先验和递归分区的算法,那么可以在没有统计假设的情况下激发两种算法,从而得出基本数据集的基本摘要。

@Ben比我更了解该短语的历史,但考虑该论文中引用的引用:

MCA可以看作是PCA的分类数据的对应物,它涉及降低数据维数以提供一个子空间,该子空间在最大化投影点的可变性的意义上可以最好地表示数据。如前所述,它的提出经常不涉及概率模型,这与Benz'ecri [1973]的想法“让数据说明一切”是一致的。

在我看来,MCA的过程确实类似于先验或递归分区(或该问题的算术平均值),因为它完全不需要任何建模即可被激发,并且是基于有意义的数据集上的机械操作在一些首要原则上。

有一种让数据说话的频谱。具有强先验性的完全贝叶斯模型将在一端。频繁出现的非参数模型将更接近另一端。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.