数据科学 machine-learning

3

我想知道对由混合类型的属性（例如，文本和数字）组成的数据集进行分类的最佳方法是什么。我知道我可以将文本转换为布尔值，但是词汇量繁多，数据变得稀疏。我还尝试对属性的类型进行单独分类，并通过元学习技术将结果组合在一起，但是效果并不理想。

13 machine-learning classification

2

如果我的论文名列表很长，如何从互联网或任何数据库中获得这些论文的摘要？论文名称类似于“针对公共卫生领域的Web挖掘中的实用性评估”。有谁知道可以给我解决方案的任何API？我试图搜寻Google Scholar，但是Google阻止了我的搜寻器。

13 data-mining machine-learning

3

当我们说超立方体中的大多数点都在边界处时，这意味着什么？

如果我有一个50维的超立方体。我用或0.95 < x j < 1定义边界，其中x j是超立方体的尺寸。然后计算超立方体边界上的点比例为0.995。这是什么意思？这是否意味着其余空间是空的？如果99 ％的点位于边界处，那么立方体内的点一定不能均匀分布吗？0<xj<0.050<xj<0.050<x_j<0.050.95<xj<10.95<xj<10.95<x_j<1xjxjx_j0.9950.9950.99599%99%99\%

13 machine-learning math

2

是否有必要更改Keras中Early Stopping回调所使用的指标？

当在Keras中使用Early Stopping回调时，某些指标（通常是验证损失）没有增加时，训练将停止。有没有一种方法可以使用其他指标（例如精度，召回率，f度量）代替验证损失？到目前为止，我所看到的所有示例都与此示例类似：callbacks.EarlyStopping（monitor ='val_loss'，耐心= 5，冗长= 0，mode ='auto'）

13 machine-learning neural-network deep-learning keras

4

在SVM算法中，为什么向量w与分离的超平面正交？

我是机器学习的初学者。在SVM中，分离的超平面定义为。为什么我们说向量与分离超平面正交？wÿ= wŤx + by=wTx+by = w^T x + bwww

13 machine-learning svm

3

SQL的自然语言查询

我一直在开发系统“将自然语言转换为SQL查询”。我已经阅读了类似问题的答案，但无法获得我正在寻找的信息。以下是我从Garima Singh，Arun Solanki的《将自然语言转换为关系数据库的SQL查询的算法》中获得的此类系统的流程图。直到语音标记步骤的一部分，我才明白。但是我该如何处理其余步骤。我是否需要训练所有可能的SQL查询？或者，一旦完成语音标记的一部分，我就必须使用这些单词并形成一个SQL查询？编辑：我已经成功实现了从步骤“用户查询”到“语音标记”。谢谢。

13 machine-learning nlp sql natural-language-process

4

大分类值的一种热门编码替代方案？

您好，数据框具有超过1600个类别的大分类值，有什么办法可以找到替代方法，使我没有超过1600列。我在下面的有趣链接中找到了此链接http://amunategui.github.io/feature-hashing/#sourcecode 但是他们正在转换为我不想要的类/对象。我希望最终输出为数据框，以便可以使用不同的机器学习模型进行测试吗？还是有什么方法可以使用生成的矩阵来训练除Logistic回归或XGBoost之外的其他机器学习模型？无论如何，我可以实施吗？

13 machine-learning dataset dimensionality-reduction encoding

1

Keras中的多任务学习

我正在尝试在Keras中实现共享层。我确实看到Keras拥有keras.layers.concatenate，但是我从文档中不确定其用法。我可以使用它来创建多个共享层吗？如下所示，使用Keras来实现简单的共享神经网络的最佳方法是什么？请注意，所有3个NN的输入，输出和共享层的所有形状都相同。三个NN中有多个共享层（和非共享层）。着色层对于每个NN都是唯一的，并且具有相同的形状。基本上，该图表示具有多个共享隐藏层的3个相同的NN，然后是多个非共享隐藏层。我不确定如何像Twitter示例中那样共享多个层，只有一个共享层（API文档中的示例）。

12 machine-learning neural-network deep-learning keras multitask-learning

5

最佳神经网络Julia库

我一直在使用该库进行基本的神经网络构建和分析。但是，它不支持构建多层神经网络等。因此，我想知道任何用于在Julia中进行高级神经网络和深度学习的不错的库。

12 machine-learning neural-network julia

1

哈希技巧-实际发生了什么

当ML算法（例如Vowpal Wabbit或某些因式分解机器赢得点击率竞争（Kaggle））提到功能“散乱”时，这实际上对模型意味着什么？可以说有一个变量表示互联网添加的ID，该变量采用诸如“ 236BG231”之类的值。然后，我了解到此功能已哈希为一个随机整数。但是，我的问题是：是模型中现在使用的整数，是整数（数字）或哈希值是否仍然仍然像分类变量一样被一键编码？因此，哈希技巧只是为了以某种方式节省大数据的空间？

12 machine-learning predictive-modeling kaggle

3

非结构化文本分类

我将对非结构化文本文档进行分类，即结构未知的网站。我要分类的课程数量有限（目前，我相信不超过三个）。有人对我的入门提出建议吗？在这里“言语袋”方法可行吗？后来，我可以基于文档结构（也许是决策树）添加另一个分类阶段。我对Mahout和Hadoop有点熟悉，所以我更喜欢基于Java的解决方案。如果需要，我可以切换到Scala和/或Spark引擎（ML库）。

12 machine-learning classification text-mining beginner

2

表情符号的情绪数据

为了进行实验，我们希望将嵌入许多推文中的Emoji用作基本事实/训练数据，以便进行简单的定量分析。推文通常过于结构化，NLP无法正常工作。无论如何，Unicode 6.0中有722个表情符号，Unicode 7.0中可能还会添加250个表情符号。是否有一个数据库（例如SentiWordNet）包含针对它们的情感注释？（请注意，SentiWordNet的确也允许模棱两可的含义。考虑一下例如funny，这不仅是肯定的：“这听起来很有趣”可能不是肯定的…… ;-)例如，同样适用。但是我不认为这更难表情符号比普通单词更适合...）另外，如果您有使用它们进行情感分析的经验，我很想听听。

12 machine-learning classification parsing

3

根据索赔数据中的过去状况预测下一个疾病状况

我目前正在使用大量的健康保险理赔数据，其中包括一些实验室和药房理赔。但是，数据集中最一致的信息由诊断（ICD-9CM）和过程代码（CPT，HCSPCS，ICD-9CM）组成。我的目标是：确定最有影响力的前体疾病（合并症），例如慢性肾脏疾病等医学疾病；根据患者过去的病情，确定其患病的可能性（或可能性）；进行与1和2相同的操作，但要进行操作和/或诊断。最好，结果可以由医生解释我看过诸如“ 遗产健康奖里程碑”论文之类的东西，并从中学到了很多东西，但是它们专注于预测住院情况。所以这是我的问题：您认为哪种方法可以很好地解决此类问题？而且，对于学习与医疗保健和临床医学相关的数据科学应用和方法，哪些资源最有用？编辑＃2添加明文表： CKD是目标疾病，“慢性肾脏病”，“。any”表示他们随时都有该疾病，“。isbefore.ckd”表示他们在首次诊断CKD之前患有该疾病。其他缩写对应于由ICD-9CM代码分组标识的其他条件。在导入过程中，此分组在SQL中发生。除Patient_age之外，每个变量都是二进制的。

12 machine-learning r

9

有哪些易于学习的机器学习应用程序？[关闭]

已关闭。这个问题是基于观点的。它当前不接受答案。想改善这个问题吗？更新问题，以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。作为机器学习的新手，我想开始尝试一下，看看有什么可能。我很好奇您可能建议使用哪些应用程序，这些应用程序将提供从安装到产生有意义结果的最快时间。同样，任何有关机器学习的入门材料的建议都将受到赞赏。

12 machine-learning

2

神经网络可以计算

出于著名的Tensorflow Fizz Buzz笑话和XOr问题的精神，我开始思考，是否有可能设计实现ÿ= x2y=x2y = x^2函数的神经网络？给定一个数字的某种表示形式（例如，作为二进制形式的向量，因此该数字5表示为[1,0,1,0,0,0,0,...]），在这种情况下，神经网络应学会返回其平方-25。如果我可以实现ÿ= x2y=x2y=x^2，那么我可能可以实现ÿ= x3y=x3y=x^3并且通常可以实现x的任意多项式，然后使用泰勒级数，我可以近似ÿ= 罪（x ）y=sin⁡(x)y=\sin(x)，这将解决Fizz Buzz问题-神经网络可以找到该部门的其余部分。显然，仅NN的线性部分将无法执行此任务，因此，如果我们能够进行乘法运算，则由于激活函数而将发生这种情况。您可以提出任何建议或阅读相关主题吗？

12 machine-learning neural-network

Questions tagged «machine-learning»