Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。

3
混合属性类型对数据集进行分类的最佳方法
我想知道对由混合类型的属性(例如,文本和数字)组成的数据集进行分类的最佳方法是什么。我知道我可以将文本转换为布尔值,但是词汇量繁多,数据变得稀疏。我还尝试对属性的类型进行单独分类,并通过元学习技术将结果组合在一起,但是效果并不理想。

2
是否有用于抓取论文摘要的API?
如果我的论文名列表很长,如何从互联网或任何数据库中获得这些论文的摘要? 论文名称类似于“针对公共卫生领域的Web挖掘中的实用性评估”。 有谁知道可以给我解决方案的任何API?我试图搜寻Google Scholar,但是Google阻止了我的搜寻器。

3
当我们说超立方体中的大多数点都在边界处时,这意味着什么?
如果我有一个50维的超立方体。我用或0.95 &lt; x j &lt; 1定义边界,其中x j是超立方体的尺寸。然后计算超立方体边界上的点比例为0.995。这是什么意思?这是否意味着其余空间是空的?如果99 %的点位于边界处,那么立方体内的点一定不能均匀分布吗?0&lt;xj&lt;0.050&lt;xj&lt;0.050<x_j<0.050.95&lt;xj&lt;10.95&lt;xj&lt;10.95<x_j<1xjxjx_j0.9950.9950.99599%99%99\%

2
是否有必要更改Keras中Early Stopping回调所使用的指标?
当在Keras中使用Early Stopping回调时,某些指标(通常是验证损失)没有增加时,训练将停止。有没有一种方法可以使用其他指标(例如精度,召回率,f度量)代替验证损失?到目前为止,我所看到的所有示例都与此示例类似:callbacks.EarlyStopping(monitor ='val_loss',耐心= 5,冗长= 0,mode ='auto')


3
SQL的自然语言查询
我一直在开发系统“将自然语言转换为SQL查询”。 我已经阅读了类似问题的答案,但无法获得我正在寻找的信息。 以下是我从Garima Singh,Arun Solanki的《将自然语言转换为关系数据库的SQL查询的算法》中获得的此类系统的流程图。 直到语音标记步骤的一部分,我才明白。但是我该如何处理其余步骤。 我是否需要训练所有可能的SQL查询? 或者,一旦完成语音标记的一部分,我就必须使用这些单词并形成一个SQL查询? 编辑:我已经成功实现了从步骤“用户查询”到“语音标记”。 谢谢。

4
大分类值的一种热门编码替代方案?
您好,数据框具有超过1600个类别的大分类值,有什么办法可以找到替代方法,使我没有超过1600列。 我在下面的有趣链接中找到了此链接http://amunategui.github.io/feature-hashing/#sourcecode 但是他们正在转换为我不想要的类/对象。我希望最终输出为数据框,以便可以使用不同的机器学习模型进行测试吗?还是有什么方法可以使用生成的矩阵来训练除Logistic回归或XGBoost之外的其他机器学习模型? 无论如何,我可以实施吗?

1
Keras中的多任务学习
我正在尝试在Keras中实现共享层。我确实看到Keras拥有keras.layers.concatenate,但是我从文档中不确定其用法。我可以使用它来创建多个共享层吗?如下所示,使用Keras来实现简单的共享神经网络的最佳方法是什么? 请注意,所有3个NN的输入,输出和共享层的所有形状都相同。三个NN中有多个共享层(和非共享层)。着色层对于每个NN都是唯一的,并且具有相同的形状。 基本上,该图表示具有多个共享隐藏层的3个相同的NN,然后是多个非共享隐藏层。 我不确定如何像Twitter示例中那样共享多个层,只有一个共享层(API文档中的示例)。


1
哈希技巧-实际发生了什么
当ML算法(例如Vowpal Wabbit或某些因式分解机器赢得点击率竞争(Kaggle))提到功能“散乱”时,这实际上对模型意味着什么?可以说有一个变量表示互联网添加的ID,该变量采用诸如“ 236BG231”之类的值。然后,我了解到此功能已哈希为一个随机整数。但是,我的问题是: 是模型中现在使用的整数,是整数(数字)或 哈希值是否仍然仍然像分类变量一样被一键编码?因此,哈希技巧只是为了以某种方式节省大数据的空间?

3
非结构化文本分类
我将对非结构化文本文档进行分类,即结构未知的网站。我要分类的课程数量有限(目前,我相信不超过三个)。有人对我的入门提出建议吗? 在这里“言语袋”方法可行吗?后来,我可以基于文档结构(也许是决策树)添加另一个分类阶段。 我对Mahout和Hadoop有点熟悉,所以我更喜欢基于Java的解决方案。如果需要,我可以切换到Scala和/或Spark引擎(ML库)。

2
表情符号的情绪数据
为了进行实验,我们希望将嵌入许多推文中的Emoji用作基本事实/训练数据,以便进行简单的定量分析。推文通常过于结构化,NLP无法正常工作。 无论如何,Unicode 6.0中有722个表情符号,Unicode 7.0中可能还会添加250个表情符号。 是否有一个数据库(例如SentiWordNet)包含针对它们的情感注释? (请注意,SentiWordNet的确也允许模棱两可的含义。考虑一下例如funny,这不仅是肯定的:“这听起来很有趣”可能不是肯定的…… ;-)例如,同样适用。但是我不认为这更难表情符号比普通单词更适合...) 另外,如果您有使用它们进行情感分析的经验,我很想听听。

3
根据索赔数据中的过去状况预测下一个疾病状况
我目前正在使用大量的健康保险理赔数据,其中包括一些实验室和药房理赔。但是,数据集中最一致的信息由诊断(ICD-9CM)和过程代码(CPT,HCSPCS,ICD-9CM)组成。 我的目标是: 确定最有影响力的前体疾病(合并症),例如慢性肾脏疾病等医学疾病; 根据患者过去的病情,确定其患病的可能性(或可能性); 进行与1和2相同的操作,但要进行操作和/或诊断。 最好,结果可以由医生解释 我看过诸如“ 遗产健康奖里程碑”论文之类的东西,并从中学到了很多东西,但是它们专注于预测住院情况。 所以这是我的问题:您认为哪种方法可以很好地解决此类问题?而且,对于学习与医疗保健和临床医学相关的数据科学应用和方法,哪些资源最有用? 编辑#2添加明文表: CKD是目标疾病,“慢性肾脏病”,“。any”表示他们随时都有该疾病,“。isbefore.ckd”表示他们在首次诊断CKD之前患有该疾病。其他缩写对应于由ICD-9CM代码分组标识的其他条件。在导入过程中,此分组在SQL中发生。除Patient_age之外,每个变量都是二进制的。

9
有哪些易于学习的机器学习应用程序?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 作为机器学习的新手,我想开始尝试一下,看看有什么可能。 我很好奇您可能建议使用哪些应用程序,这些应用程序将提供从安装到产生有意义结果的最快时间。 同样,任何有关机器学习的入门材料的建议都将受到赞赏。

2
神经网络可以计算
出于著名的Tensorflow Fizz Buzz笑话和XOr问题的精神,我开始思考,是否有可能设计实现ÿ= x2y=x2y = x^2函数的神经网络? 给定一个数字的某种表示形式(例如,作为二进制形式的向量,因此该数字5表示为[1,0,1,0,0,0,0,...]),在这种情况下,神经网络应学会返回其平方-25。 如果我可以实现ÿ= x2y=x2y=x^2,那么我可能可以实现ÿ= x3y=x3y=x^3并且通常可以实现x的任意多项式,然后使用泰勒级数,我可以近似ÿ= 罪(x )y=sin⁡(x)y=\sin(x),这将解决Fizz Buzz问题-神经网络可以找到该部门的其余部分。 显然,仅NN的线性部分将无法执行此任务,因此,如果我们能够进行乘法运算,则由于激活函数而将发生这种情况。 您可以提出任何建议或阅读相关主题吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.