数据挖掘者实验设计课程


11

我是从事数据挖掘的计算机科学家。可以肯定地说,计算机科学家在进行系统的实验设计和评估方面相当差劲-使用p值和置信度估计被认为是高级的:)。

我想知道是否有好的课程/材料可以教计算机科学家有关好的实验设计的知识。为了更加具体,我将添加以下信息:

  • 本课程应针对可以假定对概率有合理理解但统计学背景有限的研究生。
  • 本课程应侧重于“不受控制的非自然环境”中的实验设计:换句话说,既没有潜在的物理基础事实,也没有控制数据收集过程的方式(与人类受试者一样)。当然,一门好的课程将侧重于基本原理,但是它应该以一种重要的方式来应对这种情况。
  • 计算元素将是奖励,但不是强制性的。我们处理大量数据,但可以根据需要自己解决计算问题。

1
您描述的所有实验条件使我想起了A / B测试...巧合吗?:)
斯特芬,2012年

Answers:


5

[诺亚·史密斯] [1]和[戴维·史密斯] [2]不久前在JHU开了一堂以类似动机参加的课程。

大纲:

  • 第1课:简介,统计资料审查,假设检验,抽样
  • 第2课:兴趣统计:均值,分位数,方差
  • 第3-4课:运行时和“空间”实验
  • 讲座5:探索性数据分析
  • 第6课:参数建模,回归和分类
  • 第7课:统计调试和概要分析
  • 第8课:总结和回顾

有关详细信息,请参见计算机科学中的经验研究方法(600.408) http://www.cs.jhu.edu/~nasmith/erm/



3

好问题。我很想看到回应。

从统计的角度来看,需要解决两个问题:大多数统计和统计设计都讨论小样本统计,并且工程师使用的大多数方法都不是“现代”统计。

对于数据挖掘/探索中的良好学习,我还没有立即提出的第一个问题的即时建议,也没有面对人口(或大样本)统计数据分析时统计意义不同的含义。

然而,兰德·威尔科克斯(Rand Wilcox)(心理学家)将会为学生介绍统计学方面的两本有趣的书:

Wilcox,RR(2012)。稳健估计和假设检验简介,第三版。学术出版社。

Wilcox,RR(2010)。《现代统计方法的基本原理:实质上提高功率和准确性》,Springer,第二版。


2
在我看来,第一个问题是要研究的问题,可能还没有“最佳实践”。对多重假设问题的基础测试和钻探进行扎实的介绍可能是最好的起点。
Suresh Venkatasubramanian 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.