在小样本研究中如何应对探索性数据分析和数据挖掘？

探索性数据分析（EDA）通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据的研究中，我会遇到这种情况（社会人口统计学数据，神经心理学或医学量表，例如，心理或身体机能，抑郁/焦虑水平，症状清单））。EDA可能会突出显示一些意料之外的关系（“意料之外”，意味着它们未包含在初始分析计划中），这会转化为其他问题/假设。

与过拟合的情况一样，数据挖掘或监听确实会导致结果无法推广。但是，当有大量数据可用时，（对于研究人员或医师而言）很难假设一组有限的假设。

我想知道在小样本研究中是否有公认的方法，建议或经验法则可能有助于描述EDA。

— hl
source

我不太确定为什么样本大小很重要。您能否提供关于为何认为小n与大n有所不同的更多具体推理？

— 安迪W

@Andy因为这样很难考虑保留样本和/或样本大小非常有限（）的类别不平衡，通常在应用CV时会产生较大的分类错误率；在研究双变量分布时，某些人可能被视为离群值；并且在具有自身测量误差的仪器上收集的测量值的可靠性较差（较小，较大）。从某种意义上讲，有时很难从工件中分离出意外的关系。

13 < n < 25

$13<n<25$

n

$n$

σ

$\sigma$

— chl

如果您仅对分类感兴趣，我想我可以理解这一观点。我认为对于因果推理，数据监听的问题是相同的（即，不能通过增强识别关系的能力来解决问题）。我将尽力将这一意见转化为答案。在此期间，我可能会在主要论坛上询问有关使用交叉验证进行因果推理的问题，因为我在该领域没有遇到过任何这样做的工作。

— 安迪W

@安迪谢谢。希望您的问题会得到很多有趣的答案。

— chl 2010年

Answers:

我认为，最主要的是坦率地报告这样的结果，它们是EDA的意外发现，而不是基于先验假设的初始分析计划的一部分。有些人喜欢标签这样的结果“产生假说”：例如先打从一个对谷歌学术此短语搜索包括在其抽象的结论部分如下：

由于这是“探索性”分析，因此应将这种效果视为假设的产生，并在其他试验中进行前瞻性评估。

尽管要注意的是，尽管这是事后的亚组分析，但它来自于一项随机对照试验，而不是一项观察性研究，在该研究中，问题变得更加严重。菲利普·科尔（Philip Cole）对观察（“流行病学”）研究可以在故意挑衅但有趣的评论中产生假设的想法表示不屑：

P科尔。假设生成机。 流行病学 1993；4：271-273。

— 1站
source

+1感谢您的链接（和重新标记）。我会研究这个方向。

— chl 2010年

我只为感兴趣的读者提供一些有关数据挖掘和临床研究的参考。这是为了扩展@onestop的好的答案。我尽力避免避免只关注多个比较或设计问题的文章，尽管具有多个端点的研究继续提出具有挑战性和争议性的讨论（Rothman声称无用调整后很久，Epidemiology 1990，1：43-46；或者请参见Feise在BMC中的评论医学研究方法论，2002，2：8）。

我的理解是，尽管我谈论探索性数据分析，但我的问题更笼统地解决了数据挖掘的使用以及潜在的陷阱，与假设驱动的检验并行。

Koh，HC和Tan，G（2005）。数据挖掘在医疗保健中的应用。Journal of Healthcare Information Management，19（2），64-72。
约阿尼迪斯，JPA（2005）。为什么大多数已发表的研究结果都是错误的。PLoS Medicine，2（8），e124。
安德森（DR），华盛顿州林克（Link），DH（约翰逊）和KP（伯纳姆）（2001）。提出数据分析结果的建议。野生动物管理杂志，65（3），373-378。-这回荡了@onestop关于我们必须承认数据驱动的探索/建模超出初始假设集这一事实的评论
米歇尔斯（KB）和罗斯纳（文学士）（1996）。数据拖网：钓鱼还是不钓鱼。柳叶刀，348，1152-1153。
Lord，SJ，Veb的Gebski和AC的Keech（2004）。临床试验中的多种分析：健全的科学还是数据挖掘？。澳大利亚医学杂志 181（8），452-454。
GD Smith和Sbrahim S（2002）。数据挖掘，偏差或混淆。BMJ，325，1437-1438。
Afshartous，D和Wolf，M（2007）。在多层次和混合效果模型中避免“数据监听”。皇家统计学会杂志A，170（4），1035-1059
安德森（DR），伯纳姆（KP），古尔德（WR）和樱桃（S）（2001）。对发现实际上是虚假的效果的担忧。Widlife Society Bulletin，29（1），311-316。

— CHL
source

这只是我到目前为止所读内容的回顾。显然，我不会接受自己的回答。任何其他想法将不胜感激。

— chl

感谢您接受我的回答，尽管您自己的参考列表要好得多并且是最新的。我真的应该想到他们夫妇的自己，因为我已经得到了他们我的硬盘驱动器上，甚至可能已经阅读过的部分...

— 一站式