我从事数据挖掘领域的工作,很少接受统计学方面的正规教育。最近,我读了很多关于贝叶斯学习和挖掘范式的工作,我觉得这很有趣。
我的问题是(分为几个部分),考虑到一个问题,是否有一个通用的框架可以用来构建统计模型?给定想要为其基础流程建模的数据集时,您要做的第一件事是什么?有没有好的书籍/教程可以解释这个过程,或者是经验的问题?在构建模型时,推理是在您的思维的最前沿吗?还是在担心如何使用数据进行计算之前首先要描述数据?
任何见识将不胜感激!谢谢。
我从事数据挖掘领域的工作,很少接受统计学方面的正规教育。最近,我读了很多关于贝叶斯学习和挖掘范式的工作,我觉得这很有趣。
我的问题是(分为几个部分),考虑到一个问题,是否有一个通用的框架可以用来构建统计模型?给定想要为其基础流程建模的数据集时,您要做的第一件事是什么?有没有好的书籍/教程可以解释这个过程,或者是经验的问题?在构建模型时,推理是在您的思维的最前沿吗?还是在担心如何使用数据进行计算之前首先要描述数据?
任何见识将不胜感激!谢谢。
Answers:
在统计中,就像在数据挖掘中一样,您从数据和目标开始。在统计中,人们非常关注推理,即使用样本回答总体水平的问题。在数据挖掘中,重点通常是预测:您从样本(训练数据)创建模型以预测测试数据。
统计过程如下:
使用摘要和图表来探索数据-根据数据驱动统计学家的方式,有些人会更加开放,从各个角度看待数据,而另一些人(尤其是社会科学家)将通过数据的视角看待数据。感兴趣的问题(例如,特别是绘制感兴趣的变量而不是其他变量)
选择合适的统计模型族(例如,对于连续Y线性回归,对于二进制Y逻辑回归,或对计数数据进行泊松回归),然后选择模型
估算最终模型
测试模型假设以确保合理满足(与数据挖掘中的预测准确性测试不同)
使用模型进行推断-这是与数据挖掘不同的主要步骤。“ p值”一词到了这里...
看一看任何基本的统计教科书,您会发现关于探索性数据分析的一章,后面是一些分布(将有助于选择合理的近似模型),然后是推论(置信区间和假设检验)和回归模型。
我向您介绍了经典的统计过程。但是,我对此有很多问题。对推理的关注已经完全支配了领域,而预测(这是极其重要和有用的)几乎被忽略了。而且,如果您查看社会科学家如何使用统计数据进行推理,您会发现他们使用统计数据的方式大不相同!您可以在此处查看有关此内容的更多信息
我发现的最好的贝叶斯入门书籍是Data Analysis-A Bayesian Tutorial。这很实用。