数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答


2
我们应该在工作流中的哪里处理丢失的数据?
我正在构建一个工作流,用于从一个非常大的数据库(这里是通过SQL和的Vertica)中提取的数据创建机器学习模型(在我的情况下,使用Python pandas和sklearn软件包)pyodbc,该过程中的关键步骤包括估算缺失预测值。在单个分析或统计平台(Python,R,Stata等)中,这很简单,但是我很好奇在多平台工作流程中该步骤的最佳位置。 在Python中使用sklearn.preprocessing.Imputer类,使用pandas.DataFrame.fillna方法或手动进行此操作非常简单(取决于所使用的插补方法的复杂性)。但是由于我要在亿万个记录中的数十个或数百个列中使用它,所以我想知道是否存在一种更有效的方法来提前通过SQL直接进行此操作。除了在像Vertica这样的分布式平台上执行此操作的潜在效率之外,这还具有使我们能够创建用于构建“完整”表版本的自动化管道的额外好处,因此我们不需要填写新的表集每次我们要运行模型时,都会从头开始缺少值。 我还没有找到很多指导,但是我想我们可以: 为每个不完整的列创建一个替代值表(例如,平均值/中位数/众数,整体或按组) 将替换值表与原始表连接起来,为每行和不完整的列分配一个替换值 如果可用,使用一系列case语句获取原始值,否则使用替代值 这是在Vertica / SQL中做的合理的事情,还是有充分的理由不打扰而只是在Python中处理它?如果是后者,是否有充分的理由在大熊猫而不是sklearn或相反的情况下这样做?谢谢!

5
TensorFlow还为keras提供什么?
我知道keras充当TensorFlow的高级接口。 但是在我看来,keras可以自己完成许多功能(数据输入,模型创建,训练,评估)。 此外,TensorFlow的某些功能可以直接移植到keras(例如,可以在keras中使用tf度量或损失函数)。 我的问题是,TensorFlow提供了哪些无法在keras中复制的功能?
16 keras  tensorflow 

5
卷积神经网络过度拟合。辍学没有帮助
我在玩卷积网络。具体来说,我使用的是kaggle cats-vs-dogs数据集,该数据集包含25000张标记为猫或狗的图像(每张图像12500张)。 我设法在测试集上实现了约85%的分类精度,但是我设定了达到90%的精度的目标。 我的主要问题是过度拟合。它总是以某种方式最终发生(通常在第8-10阶段之后)。我的网络体系结构受到VGG-16的大致启发,更具体地说,我的图像被调整为128x128x3128x128x3128x128x3,然后运行: Convolution 1 128x128x32 (kernel size is 3, strides is 1) Convolution 2 128x128x32 (kernel size is 3, strides is 1) Max pool 1 64x64x32 (kernel size is 2, strides is 2) Convolution 3 64x64x64 (kernel size is 3, strides is 1) Convolution 4 64x64x64 (kernel size …

1
机器学习中的LB分数是多少?
我正在阅读有关kaggle博客的文章。作者反复提到“ LB分数”和“ LB拟合”)作为衡量机器学习有效性的指标(以及交叉验证(CV)分数)。 通过研究“ LB”的含义,我花了很多时间,我意识到通常人们没有太多背景就直接将其称为LB。 所以我的问题是-什么是“ LB”?

3
深度学习中的体重和偏见是什么?
我开始从Tensorflow网站学习机器学习。对于深度学习程序遵循的流程,我已经有了非常基本的了解(这种方法使我可以快速学习,而不必阅读书籍和大型文章)。 我遇到了一些令人困惑的事情,其中​​两个是: 偏压 重量 在tensorflow网站上的MNIST教程中,他们提到我们需要偏见和权重才能找到图像中存在特定图案的证据。我不明白的是,在何处以及如何确定“偏差”和“权重”的值? 我们是否必须提供这些值,或者TensorFlow库是否基于训练数据集自动计算这些值? 另外,如果您可以提供一些有关如何加快我的深度学习速度的建议,那就太好了! Tensorflow初学者教程

2
NLP-地名词典是作弊吗?
在NLP中,其中的概念Gazetteer对于创建注释可能非常有用。据我所理解: 地名词典由一组列表组成,这些列表包含诸如城市,组织,星期几等实体的名称。这些列表用于查找文本中这些名称的出现,例如,用于命名实体的识别任务。 因此,它本质上是一个查找。这不是作弊吗?如果我们使用a Gazetteer来检测命名实体,则不会有太多Natural Language Processing事情发生。理想情况下,我想使用NLP技术来检测命名实体。否则,它比正则表达式模式匹配器好吗?


3
如何自学数据科学?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 4年前关闭。 我是一名自学成才的Web开发人员,并且对自学数据科学感兴趣,但是我不确定如何开始。特别是,我想知道: 数据科学有哪些领域?(例如,人工智能,机器学习,数据分析等) 人们可以推荐在线课程吗? 是否有可供我练习的项目(例如,开放数据集)。 我可以申请或完成认证吗?

6
数据科学播客?
与数据科学有关的播客有哪些? 这与CrossValidated上的参考请求问题类似。 详细信息/规则: 播客(主题和剧集)应与数据科学相关。(例如:一个关于其他领域的播客,其中带有讲述该领域数据科学的一集,并不是很好的参考/答案。) 个人意见/评论(如果有)也将非常有帮助。

2
从文档中提取文本的大部分信息
是否有关于提取部分文本的文章或讨论,其中包含有关当前文档的大部分信息。 例如,我有来自同一域的大量文档。文本的某些部分包含单个文档所讨论的关键信息。我想提取其中一些部分,并将其用作文本的摘要。是否有关于如何实现此类目标的有用文档。 如果有人可以将我指引到正确的方向,这对我应该寻找或阅读的内容会有所帮助,那么我将对自然语言处理这一领域中可能已经完成的工作有所了解。
16 nlp  text-mining 



2
如何选择神经网络的特征?
我知道这个问题尚无明确答案,但让我们假设我有一个庞大的神经网络,其中包含大量数据,并且我想在输入中添加新功能。“最佳”方法是使用新功能测试网络并查看结果,但是有没有方法可以测试该功能是否异常有用?像相关度量(http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf)等?

3
一类具有不平衡,异质负面背景的歧视性分类?
我正在努力改进现有的监督分类器,以将{蛋白质}序列归为特定类别(神经肽激素前体)或不属于特定类别。 在大约1300万个蛋白质序列的背景下(“未知/注释不充分的背景”),或大约100,000个经过审查的相关蛋白质,已知的“阳性”蛋白质带有多种属性(但很少有显式注释的蛋白质) “负”方式)。 我以前的实现将其视为二进制分类问题:阳性集=标记为Neuropeptides的蛋白质。阴性集:从剩余的蛋白质中随机抽取1300个样本(总计),这些蛋白质的长度方向分布大致相似。 那行得通,但是我想大大提高机器的辨别能力(目前,在多个随机采样的负数集上,按CV测得的精度,AUC,F1约为83-86%)。 我的想法是:1)使这成为一个多类问题,选择2-3种不同类型的蛋白质,这些蛋白质将根据其特性/功能类别以及(也许)另一组随机采样的样本确定为阴性。(这里的优先级将是负集合,其特征/特征与正集合相似,同时仍具有定义的特征)。2)一次课堂学习-很好,但是据我了解,它仅用于异常检测,并且其性能比歧视性方法差。 *)我听说过PU学习,听起来很整洁,但是我正在编程N00b,而且我不知道它的任何现有实现。(在Python / sci-kit中学习)。 那么,方法1在理论POV中是否有意义?有没有最好的方法来制作多个负数集?(我也可以简单地使用大量[50K]的“阴性”蛋白,但是它们彼此之间非常不同,因此我不知道分类器如何将它们作为一个大的不平衡混合物来​​处理)。谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.