我目前正在研究基因组学的逻辑回归模型。我想作为协变量包括的输入字段之一是genes
。大约有24,000个已知基因。在计算生物学中,这种程度的可变性具有许多功能,因此需要成千上万个样本。
- 如果我
LabelEncoder()
那些24K基因 - 然后
OneHotEncoder()
他们...
24,000列是否会使我的keras培训时间对于2.2 GHz四核i7 CPU不合理?
如果是这样,我可以采用其他方法进行编码吗?
我应该以某种方式尝试将模型的一部分专用于此功能吗?
这是否意味着我需要24K输入节点?
为什么不使用VAE学习表示形式?我确实认为在基因序列学习中,与仅使用简单的PCA相比,表示形式(就像在NLP中所做的那样)将具有很大的意义...
—
n1tk