机器学习算法中缺失数据和稀疏数据之间的区别


20

稀疏数据和缺失数据之间的主要区别是什么?它如何影响机器学习?更具体地说,稀疏数据和缺失数据对分类算法和算法的回归(预测数)类型有什么影响。我说的是一种情况,丢失数据的百分比很大,我们不能删除包含丢失数据的行。


4
稀疏数据意味着许多值均为零,但您知道它们为零。缺少数据意味着您不知道某些或许多值是什么。
Anna SdTC

谢谢。我也是这样想,但想确认一下。此外,如在问题中提到,想知道怎么样,一般来说,这些类型的数据集在机器学习问题处理..
累了,烦dev的

1
我认为您的问题有点含糊。“机器学习”包括多种方法和工具,因此答案取决于您所拥有或想要做什么。在这里,他们讨论处理丢失数据的一些方法:stats.stackexchange.com/questions/103500/...
安娜SDTC

谢谢。我知道各种各样的工具和ml算法的类型。但想知道是否有任何通用方法。
既累又无聊的开发人员,

Answers:


16

为了便于理解,我将通过一个示例对此进行描述。假设您正在从具有12个传感器的设备中收集数据。您已经收集了10天的数据。

您收集的数据如下: 在此处输入图片说明

这被称为稀疏数据,因为大多数传感器输出均为零。这意味着这些传感器运行正常,但实际读数为零。尽管此矩阵具有高维数据(12轴),但可以说它包含的信息较少。

假设您设备的2个传感器出现故障。
然后您的数据将如下所示:在此处输入图片说明

在这种情况下,您会看到无法使用来自Sensor1和Sensor6的数据。您必须手动填充数据而不影响结果,或者必须重做实验。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.