数据科学

1

我有一些文本文档，其中主要包含项目列表。每个项目都是一组不同名称的多个标记：名字，姓氏，出生日期，电话号码，城市，职业等。标记是一组单词。项目可以位于多行上。文档中的项目具有大致相同的令牌语法，但不一定必须完全相同。它们可能是项目之间以及项目内部的更多/更少标记。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目的是识别所使用的语法，例如 Occupation City 最后找出所有项目，甚至认为它们不完全匹配。为了简短易懂，让我们改用一些别名A，B，C，D ...来指定这些标记类型。例如 A B C D F A B C …

13 data-mining clustering text-mining time-series correlation

2

具有非对称成本函数的线性回归？

Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} 我认为简单的线性回归应该可以。因此，我有点知道如何手动执行此操作，但是我想我不是第一个遇到这种问题的人。是否有任何软件包/库（最好是python）在做我想做的事情？我需要寻找什么关键字？如果我知道函数，其中？实施这些限制的最佳方法是什么？Y0(x)>0Y0(x)>0Y_0(x) > 0Y(x)>Y0(x)Y(x)>Y0(x)Y(x) > Y_0(x)

13 machine-learning logistic-regression

3

对于不平衡的类，我是否必须在验证/测试数据集上使用欠采样？

我是机器学习的初学者，正面临一种情况。我正在处理IPinYou数据集的实时出价问题，并且正在尝试进行点击预测。事实是，您可能知道，数据集非常不平衡：大约1300个否定示例（非点击）中有1个肯定示例（点击）。这是我的工作：加载数据将数据集分为3个数据集：A =训练（60％）B =验证（20％）C =测试（20％）对于每个数据集（A，B，C），对每个负分类进行欠采样，以使比率为5（1个正样本的5个负样本）。这给了我3个更加平衡的新数据集：A'B'C' 然后，我用数据集A'和逻辑回归训练模型。我的问题是：我必须使用哪个数据集进行验证？B还是B'？我必须使用哪个数据集进行测试？C或C' 哪些指标与评估我的模型最相关？F1Score似乎是一个很好使用的指标。但是这里由于类的不平衡（如果我使用数据集B和C），精度较低（低于0.20），F1Score受较低的召回率/精度的影响很大。使用aucPR或aucROC会更准确吗？如果要绘制学习曲线，应该使用哪些指标？（知道如果我使用B'数据集进行验证，则％error与错误无关）在此先感谢您的时间！问候。

13 machine-learning dataset sampling

2

计算由不相交分类器组成的分类器的ROC曲线的高效算法

假设我有不相交的分类器C_1 ... C_n，因为在同一个输入（例如决策树中的节点）上，没有两个返回真。我想建立一个新的分类器，将它们的某些子集结合起来（例如，我要决定在决策树的哪些叶子上给出肯定的分类）。当然，这样做会在敏感性和阳性预测值之间进行权衡。因此，我希望看到ROC曲线。原则上，我可以通过枚举分类器的所有子集并计算所得的灵敏度和PPV来做到这一点。但是，如果n大于30左右，这将是非常昂贵的。另一方面，几乎可以肯定，有些组合不是帕累托最优的，因此可能会有一些分支定界策略或类似的东西，我想就这种方法是否可能取得成果，是否有任何工作或您是否有关于在上述情况下有效计算ROC曲线的想法提出建议。

13 algorithms

2

如何计算数据框列的平均值并找到前10％

我对Scala和Spark非常陌生，并且正在使用棒球统计数据进行一些自制练习。我正在使用一个案例类创建一个RDD并为数据分配一个架构，然后将其变成一个DataFrame，这样我就可以使用SparkSQL通过满足特定条件的玩家统计信息来选择玩家组。一旦我有一部分球员有兴趣进一步研究，我想找到一栏的平均值。例如，击球平均值或打点。从那以后，我想根据所有球员的平均表现将他们分成几个百分点。最高10％，最低10％，40-50％我已经能够使用DataFrame.describe（）函数以字符串形式返回所需列的摘要（均值，stddev，count，min和max）。有没有更好的方法来获得均值和标准差作为双打，将球员分成10个百分点的最佳方法是什么？到目前为止，我的想法是找到保留百分比范围的值，并编写一个通过比较器对玩家进行分组的函数，但是感觉就像是在重新发明轮子一样。我目前有以下进口： import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} import org.joda.time.format.DateTimeFormat

13 apache-spark scala

7

我是一名程序员，如何进入数据科学领域？

首先，这个词听起来很晦涩。无论如何..我是一名软件程序员。我可以编码的语言之一是Python。说到数据，我可以使用SQL并可以进行数据收集。在阅读了很多文章之后，我到目前为止所得出的结论是Data Science擅长： 1-统计 2-代数 3-数据分析 4-可视化。 5-机器学习。我到目前为止所知道的： 1- Python编程2- Python中的数据抓取您能为我提供指导还是提出重新规划理论和实践的路线图？我给了自己大约8个月的时间。

13 beginner career

1

特征生成和特征提取之间有什么区别？

谁能告诉我特征生成的目的是什么？为什么在对图像进行分类之前需要进行特征空间丰富化？这是必要步骤吗？有什么方法可以丰富要素空间？

13 machine-learning classification

1

Neo4j vs OrientDB vs泰坦

我正在从事与社会关系挖掘有关的数据科学项目，需要将数据存储在某些图形数据库中。最初，我选择Neo4j作为数据库。但是它接缝了Neo4j的伸缩性不好。我发现的替代方法是Titan和oriebtDB。我走过了这这三个数据库的比较，但我想获得这些数据库的更多细节。所以有人可以帮助我选择最好的人吗？我主要想比较这些数据库的性能，可扩展性，可用的在线文档/教程，Python库支持，查询语言复杂性和图算法支持。还有其他好的数据库选项吗？

13 data-mining graphs databases social-network-analysis

1

通过添加更多的单个决策树来进行在线随机森林

随机森林（RF）由决策树（DT）的集合创建。通过使用装袋，可以在不同的数据子集中训练每个DT。因此，有没有办法通过在新数据上添加更多决策树来实现在线随机森林？例如，我们有10K样本并训练了10个DT。然后，我们得到了1K个样本，而不是再次训练整个RF，而是添加了一个新的DT。现在通过10 + 1 DT的贝叶斯平均值进行预测。另外，如果我们保留所有先前的数据，则可以主要在新数据中训练新的数据仓库，其中根据已经选择了多少次来加权选择样本的概率。

13 random-forest online-learning

2

可视化深度神经网络训练

我正在尝试为多层网络找到等效的欣顿图，以在训练过程中绘制权重。训练后的网络在某种程度上类似于Deep SRN，即它具有大量的多个权重矩阵，这会使多个Hinton图的同时绘制在视觉上造成混淆。有人知道可视化多层多层递归网络权重更新过程的好方法吗？我没有找到太多关于该主题的论文。我当时想在每层权重上显示与时间相关的信息，如果我无法解决问题。例如，随着时间的推移，每一层的权重增量（省略每个连接的使用）。PCA是另一种可能性，尽管我不想产生太多额外的计算，因为可视化是在培训期间在线完成的。

13 machine-learning neural-network visualization deep-learning

2

在NLP的分类过程中，解析树通常使用哪些功能？

我正在探索不同类型的解析树结构。两种广为人知的解析树结构是：a）基于选区的解析树和b）基于依赖关系的解析树结构。我可以使用Stanford NLP包生成两种类型的解析树结构。但是，我不确定如何将这些树结构用于分类任务。例如，如果我想进行情感分析并将文本分类为肯定和否定类别，那么对于我的分类任务，我可以从解析树结构中得出哪些特征？

13 machine-learning nlp feature-selection feature-extraction

4

学习机器学习算法：理解深度与算法数量

最近，我被介绍给了数据科学领域（大约6个月），二开始了Andrew Ng的机器学习课程之旅，并开始了JHU的数据科学专业研究。在实际应用程序方面，我一直在构建可预测损耗的预测模型。到目前为止，我已经尝试使用glm，bayesglm，rf来学习和应用这些方法，但是在我对这些算法的理解上发现了很多空白。我的基本难题是：我是否应该更专注于学习一些算法的复杂性，还是应该使用根据需要，何时何地了解很多算法的方法？请通过建议书籍或文章或您认为有帮助的任何方法来指导我正确的方向。如果您能提出一个指导意见，请他指导刚刚在数据科学领域开始其职业生涯并希望成为解决业务领域实际问题的人，我将不胜感激。我会（尽可能多地）阅读这篇文章中建议的资源（书籍，文章），并就该文章的优缺点提供个人反馈，以使这篇文章对遇到类似问题的人有所帮助将来，我认为如果人们建议这些书能做到同样的话，那将是很好的。

13 machine-learning

6

数据集了解最佳实践

我是数据挖掘的CS硕士学生。我的主管曾经告诉我，在运行任何分类器或对数据集执行任何操作之前，我必须完全理解数据，并确保数据干净无误。我的问题：理解数据集（具有数值和名义属性的高维）的最佳实践是什么？如何确保数据集干净？是否要确保数据集没有错误值？

13 statistics dataset

1

关系数据库比没有关系数据库具有更好的性能时

当像MySQL这样的关系数据库比没有关系的数据库（如MongoDB）具有更好的性能时？前几天，我在Quora上看到一个问题，关于Quora为什么仍将MySQL作为其后端，并且它们的性能仍然很好。

13 bigdata performance databases nosql

4

大数据案例研究或用例示例

我已经阅读了很多关于大数据分析如何使用不同类型行业的博客\文章。但是这些文章大部分都没有提及这些公司使用了什么样的数据。数据大小是多少他们使用了什么样的工具技术来处理数据他们面临的问题是什么，以及他们如何获得数据的洞察力如何帮助他们解决了问题。他们如何选择适合自己需要的工具/技术。他们从数据中识别出什么样的模式，以及他们从数据中寻找什么样的模式。我想知道是否有人可以为我提供所有这些问题的答案，或者至少提供一些问题答案的链接。我正在寻找现实世界的例子。如果有人分享金融业如何利用大数据分析，那就太好了。

13 data-mining bigdata usecase