我想将非原子数据用作预测的功能。假设我有一个具有以下功能的表:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
我想对第2栏进行预测/分类。
我正在做一些事情以自动回答任何类型的问题,例如“ Foo出生在哪里?” ...
我首先向搜索引擎进行查询,然后得到一些文本数据,然后进行所有解析工作(标记,词干,解析,拆分...)
我的第一种方法是制作一张桌子,每一行都有一行文本和许多功能,例如“ First Word”,“ First Word的标签”,“ Chunks”等。
但是通过这种方法,我错过了句子之间的关系。
我想知道是否有一种算法可以查看树结构(或向量)内部并建立关系并提取与预测/分类相关的任何内容。与我必须实现的算法相比,我更希望了解实现该功能的库。
请澄清:您说要使用第2列作为功能,但随后又要对第2列进行预测/分类。此外,您将此功能称为“非原子” ...您是说它不是绝对的吗?
—
logc