开始进行统计建模的提示和技巧?


10

我从事数据挖掘领域的工作,很少接受统计学方面的正规教育。最近,我读了很多关于贝叶斯学习和挖掘范式的工作,我觉得这很有趣。

我的问题是(分为几个部分),考虑到一个问题,是否有一个通用的框架可以用来构建统计模型?给定想要为其基础流程建模的数据集时,您要做的第一件事是什么?有没有好的书籍/教程可以解释这个过程,或者是经验的问题?在构建模型时,推理是在您的思维的最前沿吗?还是在担心如何使用数据进行计算之前首先要描述数据?

任何见识将不胜感激!谢谢。


4
嗨,尼克-欢迎来到简历。您的问题很广泛;如果您将其分解成较小的问题,可能会得到更好的答案,这可能会更好。不过,至少您应该将问题标记为“社区Wiki”。这基本上意味着,这里的所有答案都将被视为“答案”,而不是此处通常的竞赛答案格式。
马特·帕克

1
@Matt CW复选框不再出现问题。国防部将需要根据需要将问题标记为CW。

@尼克..我也是新来的。我认为一件普通的事情以及需要保留在一件事情中的最重要的事情是如何描述输出变量。它是连续的,是二进制的吗?因为最终您想观察/建模输出变量。接下来,我想想是可以对所需变量进行建模的方法。如果变量是二分法,则过程将是logit模型。接下来要考虑的是数据,其实质性内容和变量。一个人遇到的各种问题。希望这是有道理的。
ayush biyani

Answers:


6

在统计中,就像在数据挖掘中一样,您从数据和目标开始。在统计中,人们非常关注推理,即使用样本回答总体水平的问题。在数据挖掘中,重点通常是预测:您从样本(训练数据)创建模型以预测测试数据。

统计过程如下:

  1. 使用摘要和图表来探索数据-根据数据驱动统计学家的方式,有些人会更加开放,从各个角度看待数据,而另一些人(尤其是社会科学家)将通过数据的视角看待数据。感兴趣的问题(例如,特别是绘制感兴趣的变量而不是其他变量)

    1. 选择合适的统计模型族(例如,对于连续Y线性回归,对于二进制Y逻辑回归,或对计数数据进行泊松回归),然后选择模型

    2. 估算最终模型

    3. 测试模型假设以确保合理满足(与数据挖掘中的预测准确性测试不同)

    4. 使用模型进行推断-这是与数据挖掘不同的主要步骤。“ p值”一词到了这里...

看一看任何基本的统计教科书,您会发现关于探索性数据分析的一章,后面是一些分布(将有助于选择合理的近似模型),然后是推论(置信区间和假设检验)和回归模型。

我向您介绍了经典的统计过程。但是,我对此有很多问题。对推理的关注已经完全支配了领域,而预测(这是极其重要和有用的)几乎被忽略了。而且,如果您查看社会科学家如何使用统计数据进行推理,您会发现他们使用统计数据的方式大不相同!您可以在此处查看有关此内容的更多信息


2

就书籍而言,Hastie,Tibshirani和Friedman撰写的“统计学习要素”非常好。

整本书可在作者的网站上找到;您可能想看看它是否完全适合您的需求。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.