具有非原子特征的预测


10

我想将非原子数据用作预测的功能。假设我有一个具有以下功能的表:

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

我想对第2栏进行预测/分类。

我正在做一些事情以自动回答任何类型的问题,例如“ Foo出生在哪里?” ...

我首先向搜索引擎进行查询,然后得到一些文本数据,然后进行所有解析工作(标记,词干,解析,拆分...)

我的第一种方法是制作一张桌子,每一行都有一行文本和许多功能,例如“ First Word”,“ First Word的标签”,“ Chunks”等。

但是通过这种方法,我错过了句子之间的关系。

我想知道是否有一种算法可以查看树结构(或向量)内部并建立关系并提取与预测/分类相关的任何内容。与我必须实现的算法相比,我更希望了解实现该功能的库。


请澄清:您说要使用第2列作为功能,但随后又要对第2列进行预测/分类。此外,您将此功能称为“非原子” ...您是说它不是绝对的吗?
logc

Answers:


7

当涉及到许多不同种类的数据时,尤其是当它们之间的关系不清楚时,我强烈建议您使用一种基于决策树的技术,据我所知,当今最受欢迎的技术是随机森林,并且极其随机树木

两者都有sklearn的实现,并且非常易于使用。在非常高的水平上,decision tree基于方法对多种异构数据有利的原因是,决策树在很大程度上能够独立于所处理的特定数据,只要它们能够理解您的表示即可。

您仍然需要将数据拟合到某种特征向量中,但是基于您的示例,这似乎是一项非常简单的任务,并且,如果您愿意对实现进行更深入的研究,则肯定可以提出一个自定义的拆分树规则,而无需实际更改基础算法中的任何内容。该原纸是一个相当不错的地方开始,如果你想给一个镜头。

但是,如果您希望从文本数据中获取伪结构数据,建议您研究一下doc2vecGoogle最近开发的。我认为现在没有任何好的开源实现,但是它是对word2vec算法的非常直接的改进,该算法至少在C和中都有实现python

希望有帮助!让我知道您是否还有其他问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.