数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

3
根据索赔数据中的过去状况预测下一个疾病状况
我目前正在使用大量的健康保险理赔数据,其中包括一些实验室和药房理赔。但是,数据集中最一致的信息由诊断(ICD-9CM)和过程代码(CPT,HCSPCS,ICD-9CM)组成。 我的目标是: 确定最有影响力的前体疾病(合并症),例如慢性肾脏疾病等医学疾病; 根据患者过去的病情,确定其患病的可能性(或可能性); 进行与1和2相同的操作,但要进行操作和/或诊断。 最好,结果可以由医生解释 我看过诸如“ 遗产健康奖里程碑”论文之类的东西,并从中学到了很多东西,但是它们专注于预测住院情况。 所以这是我的问题:您认为哪种方法可以很好地解决此类问题?而且,对于学习与医疗保健和临床医学相关的数据科学应用和方法,哪些资源最有用? 编辑#2添加明文表: CKD是目标疾病,“慢性肾脏病”,“。any”表示他们随时都有该疾病,“。isbefore.ckd”表示他们在首次诊断CKD之前患有该疾病。其他缩写对应于由ICD-9CM代码分组标识的其他条件。在导入过程中,此分组在SQL中发生。除Patient_age之外,每个变量都是二进制的。

3
高效的数据库模型,用于存储由n-gram索引的数据
我正在开发一个应用程序,该应用程序需要创建一个存在于大型文本语料库中的非常大的n-gram数据库。 我需要三种有效的操作类型:由n-gram本身索引的查找和插入,以及查询包含子n-gram的所有n-gram。 在我看来,数据库应该是一个巨大的文档树,而文档数据库(例如Mongo)应该能够很好地完成工作,但是我从来没有大规模使用过。 了解Stack Exchange问​​题格式后,我想澄清的是,我并不是在寻求有关特定技术的建议,而是要寻求大规模实施此类数据库的一种类型的数据库。
12 nlp  databases 

3
在不同样本量下测量不同分类器的性能
我目前正在对从文本中提取的各种实体使用几种不同的分类器,并将精度/召回率用作总结每个单独的分类器在给定数据集中的表现的摘要。 我想知道是否存在一种有意义的方式来以类似方式比较这些分类器的性能,但是该方法还考虑了要分类的测试数据中每个实体的总数? 目前,我正在使用精度/召回率作为性能指标,因此可能会有类似以下内容: Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% 但是,我正在运行这些数据集的数据集中可能包含10万员工,5000家公司,500种奶酪和1个鸡蛋。 那么,我是否可以在上表中添加一个汇总统计信息,其中还考虑了每个项目的总数?还是有某种方法可以衡量一个事实,例如,仅使用一个数据项,Egg分类器上的100%prec / rec可能就没有意义? 假设我们有数百个这样的分类器,我想我正在寻找一种很好的方法来回答诸如“哪些分类器表现不佳?哪些分类器缺乏足够的测试数据来判断它们是否表现不佳?”之类的问题。

1
全局压缩方法和通用压缩方法有什么区别?
我知道压缩方法可以分为两个主要组: 全球 本地 第一组工作与所处理的数据无关,也就是说,它们不依赖于数据的任何特征,因此不需要在数据集的任何部分上执行任何预处理(在压缩本身之前)。另一方面,局部方法分析数据,提取通常可以提高压缩率的信息。 在阅读其中一些方法时,我注意到一元方法不是通用方法,这使我感到惊讶,因为我认为“全局性”和“通用性”是同一件事。一元方法不依赖数据的特性来产生其编码(即,它是一种全局方法),因此它应该是全局/通用的,不是吗? 我的主要问题: 通用方法和全局方法有什么区别? 这些分类不是同义词吗?

2
偏好匹配算法
我正在研究这个副项目,我需要在其中构造以下问题的解决方案。 我有两组人(客户)。集团A打算购买,集团B打算出售确定的产品X。该产品具有一系列的属性x_i,我的目标是促进之间的交易A,并B通过匹配他们的喜好。主要思想是指出A对应B产品的每个成员,其产品更适合其需求,反之亦然。 问题的一些复杂方面: 属性列表不是有限的。买方可能会对非常特殊的特性或某种设计感兴趣,这在人群中很少见,我无法预测。先前无法列出所有属性; 属性可以是连续的,二进制的或不可量化的(例如:价格,功能,设计); 关于如何解决此问题并以自动化方式解决它的任何建议? 如果可能的话,我也希望参考一些其他类似的问题。 很棒的建议!与我思考问题的方式有很多相似之处。 映射属性的主要问题是产品描述的详细程度取决于每个购买者。让我们以汽车为例。产品“汽车”具有很多属性,包括性能,机械结构,价格等。 假设我只想要便宜的汽车或电动汽车。好的,这很容易映射,因为它们代表了该产品的主要功能。但是,例如,假设我要一辆配备双离合变速器或氙气大灯的汽车。嗯,数据库中可能有许多具有此属性的汽车,但我不会要求卖方在有人发现它们之前先将其详细信息填写到他们的产品中。这样的程序将要求每个卖方填写一个复杂,非常详细的表格,仅尝试在平台上出售其汽车。就是行不通。 但是,我仍然面临的挑战是在搜索中尽可能详细地进行匹配。因此,我的思维方式是映射产品的主要方面(可能与每个人都相关的方面),以缩小潜在卖方的类别。 下一步将是“优化搜索”。为了避免创建过于详细的表格,我可以要求买卖双方写明其规格的自由文本。然后使用一些单词匹配算法来查找可能的匹配项。尽管我知道这不是解决问题的适当方法,因为卖方无法“猜测”买方的需求。但是可能会让我靠近。 建议的加权标准很好。它使我能够量化卖方满足买方需求的水平。但是,缩放部分可能是个问题,因为每个属性的重要性因客户端而异。我正在考虑使用某种模式识别,或者只是要求购买者输入每个属性的重要性级别。


2
Storm和Hadoop之间的权衡(MapReduce)
有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗?当然,除了显而易见的一个之外,Hadoop(在Hadoop集群中通过MapReduce进行处理)是一个批处理系统,而Storm是一个实时处理系统。 我曾经在Hadoop Eco System上工作过一些,但没有与Storm一起工作过。浏览了许多演示文稿和文章后,我仍然找不到满意且全面的答案。 注意:此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。

9
有哪些易于学习的机器学习应用程序?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 作为机器学习的新手,我想开始尝试一下,看看有什么可能。 我很好奇您可能建议使用哪些应用程序,这些应用程序将提供从安装到产生有意义结果的最快时间。 同样,任何有关机器学习的入门材料的建议都将受到赞赏。

3
使用EC2时的实例与核心
在通常被称为“中等数据”项目的工作中,我已经能够在4到32个内核之间的任何一个系统上并行化我的代码(主要用于Python中的建模和预测)。现在,我正在考虑扩展到EC2上的群集(可能使用StarCluster / IPython,但也可以接受其他建议),并且对如何协调实例与群集上实例之间的内核之间的分配工作感到困惑。 跨实例以及跨每个实例的内核并行化甚至可行吗?如果是这样,那么谁能快速总结一下运行许多每个核心很少的实例与少数几个核心很多的实例的优缺点?是否有经验法则来选择每个实例的实例与核心的正确比例? 带宽和RAM在我的项目中不是无关紧要的问题,但是很容易发现何时出现瓶颈和重新调整。我想,要在没有重复测试的情况下将正确的内核混合基准用于实例要困难得多,而且我的项目相差太大,以至于任何一次测试都无法应用于所有情况。在此先感谢您,如果我只是未能正确搜索到此内容,请随时为我指出其他地方的正确答案!
12 parallel  clusters  aws 

2
神经网络可以计算
出于著名的Tensorflow Fizz Buzz笑话和XOr问题的精神,我开始思考,是否有可能设计实现ÿ= x2y=x2y = x^2函数的神经网络? 给定一个数字的某种表示形式(例如,作为二进制形式的向量,因此该数字5表示为[1,0,1,0,0,0,0,...]),在这种情况下,神经网络应学会返回其平方-25。 如果我可以实现ÿ= x2y=x2y=x^2,那么我可能可以实现ÿ= x3y=x3y=x^3并且通常可以实现x的任意多项式,然后使用泰勒级数,我可以近似ÿ= 罪(x )y=sin⁡(x)y=\sin(x),这将解决Fizz Buzz问题-神经网络可以找到该部门的其余部分。 显然,仅NN的线性部分将无法执行此任务,因此,如果我们能够进行乘法运算,则由于激活函数而将发生这种情况。 您可以提出任何建议或阅读相关主题吗?

3
有设计神经网络的经验法则吗?
我知道神经网络体系结构主要基于问题本身和输入/输出的类型,但是仍然-在开始构建时总是存在“正方形”。所以我的问题是-给定一个MxN的输入数据集(M是记录数,N是要素数)和一个C可能的输出类-是否有一个应该从几层/单位开始的经验法则?

1
具有高基数分类特征的特征重要性用于回归(数字依赖变量)
我试图使用随机森林中的特征重要性来对回归问题执行一些经验性特征选择,该回归问题中所有特征都是分类的,并且其中许多特征具有许多级别(大约100-1000)。假设一键编码会为每个级别创建一个虚拟变量,那么功能的重要性是针对每个级别的,而不是针对每个功能(列)。汇总这些功能重要性的好方法是什么? 我考虑过对某个功能的所有级别进行求和或得出平均重要性(可能前者会偏向具有更高级别的那些功能)。关于这个问题有参考吗? 还有什么可以减少功能数量的呢?我知道套索组,找不到任何易于使用的scikit-learn。

1
深度学习中出现正方形图像的原因
大多数高级深度学习模型(例如VGG,ResNet等)都需要正方形图像作为输入,通常像素大小为224 x 224224X224224x224。 输入的形状必须相等是有原因的,还是可以建立一个100 x 200100X200100x200的convnet模型(例如,如果要进行面部识别并且有人像图像)? 更大的像素尺寸(例如512 x 512512X512512x512是否会增加收益?

4
如何知道模型已开始过度拟合?
我希望以下摘录能够深入了解我的问题。这些来自http://neuralnetworksanddeeplearning.com/chap3.html 然后学习逐渐放慢。最终,在时代280左右,分类精度几乎停止提高。稍后的时期仅在时期280处的准确性值附近看到小的随机波动。这与之前的图相反,在早期的图中与训练数据相关的成本继续平稳下降。如果仅考虑这一成本,看来我们的模型仍在“变得更好”。但是测试精度结果表明,改进是一种幻想。就像费米不喜欢的模型一样,在280期之后,我们的网络所学的内容不再推广到测试数据。因此,这不是有用的学习。我们说,网络在第280代之后过度拟合或过度训练。 我们正在训练一个神经网络,并且成本(在训练数据上)一直下降到第400阶段,但是在280阶段之后分类精度变得固定(除非有一些随机波动),因此我们得出结论,该模型在280阶段之后过度拟合了训练数据。 我们可以看到测试数据的成本在直到第15个时期之前一直在提高,但此后它实际上开始变得更糟,即使训练数据的成本在继续提高。这是我们的模型过度拟合的另一个迹象。但是,这构成了一个难题,那就是我们是否应该将第15或280时期视为过度拟合将主导学习的点?从实践的角度来看,我们真正关心的是提高测试数据的分类准确性,而测试数据的成本只不过代表了分类准确性。因此,将时代280视为过度拟合是控制我们神经网络学习的主要途径。 与以前相比,将测试数据的分类准确性与培训成本进行对比,我们现在将测试数据的成本与培训成本进行比较。 然后,本书继续解释为什么280是过度拟合开始的正确时期。这就是我的问题。我无法解决这个问题。 我们要求模型最小化成本,因此成本是它用来衡量自身正确分类强度的度量。如果我们认为280是过度拟合开始的正确时机,我们是否没有以某种方式创建一个偏向模型,尽管该偏向模型虽然可以对特定测试数据进行更好的分类,但是却以较低的置信度做出决策,因此更倾向于偏离从测试数据上显示的结果来看?

2
验证损失和准确性保持恒定
我想实现这个上一所集医疗图像的纸。我在Keras上做。该网络主要由4个conv和max-pool层组成,然后是一个完全连接的层和s​​oft max分类器。 据我所知,我遵循了本文提到的架构。但是,验证损失和准确性始终保持不变。准确性似乎固定为〜57.5%。 对于我可能会出错的任何帮助,将不胜感激。 我的代码: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np from sklearn.utils import shuffle from sklearn.cross_validation import train_test_split import theano import os import …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.