发现数据新知识的准则


9

我策划一些事情来指出自己或其他人。通常,一个问题开始这个过程,并且经常有人问一个特定答案的希望。

如何以较少偏见的方式学习有关数据的有趣事情?

现在,我大致遵循此方法:

  1. 摘要统计。
  2. 带状图。
  3. 散点图。
  4. 也许重复一个有趣的数据子集。

但这似乎还不够系统或科学。

是否有可遵循的准则或程序来揭示我不想问的有关数据的信息?我怎么知道做完足够的分析之后?

Answers:


6

探索性数据分析(EDA)的整个领域,以及约翰W.图基(John W. Tukey )撰写的关于探索性数据分析的出色著作。

我喜欢您使用图形-根据您的数据,还有许多其他图形可能有用-多少个变量?变量的性质是什么(分类?数字?连续?计数?序数?)

散点图矩阵通常是一个对具有多个变量的数据有用的图形。

您可以查找各种类型的异常值,这些异常值通常很有趣。

但是我不认为可以使整个过程真正做到有条理和科学的-探索是可以引入有条理和科学的方法之前的探索。在这里,我认为关键是玩味。


(+1)您能否提供所提到书的链接?
steffen 2011年


@Peter Flom通过比较在两组输入上运行的程序产生的两组输出来生成13个变量。该程序定期运行。变量是序数,类别,类别,类别,类别,计数,计数,计数,计数,数字,数字,计数和计数。名称是id,machineA,inputA,machineB,inputB,new,相同,missing,newP,missingP,lengthA,lengthB,scoreA,scoreB。但是决定只比较最新的输出也是我的好/坏主意。
塞尔登,

这本书实际上是约翰·W·图基(John W. Tukey)所写的《探索性数据分析》(而非EDA)(我的记忆欺骗了我,因为我的封面标有EDA)链接:amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
彼得·弗洛姆

@selden好吧,ID可能不是有用的变量。在两个类别变量之间,您可以查看镶嵌图。在分类和数字之间使用平行的箱形图可能会很好。
彼得·富勒姆

1

如果您具有时间顺序数据(例如时间序列数据),则存在“已知”,而等待发现的是“未知”。例如,如果您有一个10个周期的数据点序列,例如1,9,1,9,1,5,1,9,1,9,则根据此样本,您可以合理地预期1,9,1,9 ,...在未来出现。数据分析揭示的是,即使它处于+ -3 sigma限度以内,也表明DGF没有成立,但在第6阶段仍存在“异常”读数。揭露Inlier / Outlier可以使我们揭示有关数据的信息。我们还注意到,平均值不是预期值。这个想法很容易扩展到检测在分析数据之前(假设生成)可能不知道的均值漂移和/或本地时间趋势。现在很有可能接下来的10个读数也是1,9,1,9,1,5,1,9,1,9暗示“ 5”并不一定令人讨厌。如果我们从一个合适的模型中观察到一个误差过程,该过程表现出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。9暗示“ 5”并不一定令人讨厌。如果我们从一个合适的模型中观察到一个误差过程,该过程表现出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。9暗示“ 5”并不一定令人讨厌。如果我们从一个合适的模型中观察到一个误差过程,该过程表现出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。不一定是不幸的。如果我们从一个合适的模型中观察到一个误差过程,该过程表现出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。不一定是不幸的。如果我们从一个合适的模型中观察到一个误差过程,该过程显示出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。如果我们从一个合适的模型中观察到一个误差过程,该过程显示出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。如果我们从一个合适的模型中观察到一个误差过程,该过程显示出可证明的非恒定方差,那么我们可能会发现以下一种自然状态:1)参数可能在特定的时间点已经改变;2.可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。可能需要加权分析(GLS);3.可能需要通过幂变换来变换数据;4.可能需要实际模拟误差的方差。如果您每天都有数据,那么良好的分析可能会发现,每个假期周围都有一个反映出一致/可预测行为的响应窗口(超前,同期和滞后结构)。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。每个假期周围的同期和滞后结构),以反映一致/可预测的行为。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。每个假期周围的同期和滞后结构),以反映一致/可预测的行为。您也许还可以揭示该月的某些日子会产生重大影响,或者星期一假期之前的星期五会有异常活动。


0

数据挖掘可以分为两类。如果您有兴趣测量数据集/变量对特定变量的影响,则可以将其视为监督学习。对于没有目标的深度探索性学习,您正在接受无监督学习。

数据的图形化和统计分析(了解分布和获得直觉)是第一步。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.