数据科学

3

拥有超过百万份文档的语料库对于给定的文档，想像在向量空间模型中一样使用余弦查找相似的文档 d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 所有tf均已使用增强频率进行了归一化，以防止像以下tf-idf那样偏向于较长的文档： tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} 预先计算了所有预先计算分母的值，因此对于给定的需要得分超过100万d 2 相似度的阈值应为0.6余弦 d 1||d||||d||||d||d1d1d1d2d2d2 我可以观察到给定|的||d1||||d1||||d_1||范围相当狭窄 | d 2 | | 为余弦≥ 0.6 例如，在一个搜索类似为的余弦≥ 0.6和| | d 1 | | 之7.7631然后| | d 2 | | 范围从7.0867到8.8339，超出余弦阈值0.6范围从到0.7223到89.3395，这是标准tf文档归一化的||d2||||d2||||d_2||≥≥\ge≥≥\ge||d1||||d1||||d_1||||d2||||d2||||d_2||||d2||||d2||||d_2|| 它正在查看很多没有机会成为余弦0.6的机会 ||d2||||d2||||d_2|| 最后的问题是：对于给定的和余弦> = …

10 text-mining similarity

1

Spark，最佳地将单个RDD分为两个

我有一个大型数据集，需要根据特定参数将其分为几组。我希望这项工作尽可能高效地进行。我可以设想这样做的两种方式选项1-从原始RDD和过滤器创建地图 def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() 选项2-直接过滤原始RDD def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = rddIn.filter(customFilter).cache() 拳头方法必须对原始数据集的所有记录进行3次操作，其中第二次仅在常规情况下必须进行两次，但是，spark在后台进行了图形构建，因此我可以想象它们是以相同的方式有效地完成。我的问题是：a。）一种方法是否比另一种方法更有效，或者火花图构建使其等效？b。）是否可以在一次通过中进行拆分

10 apache-spark pyspark

1

监督学习算法中的多个标签

我有一个带有相应主题的文本语料库。例如"A rapper Tupac was shot in LA"，它被标记为["celebrity", "murder"]。因此，基本上每个特征向量可以具有多个标签（数量不相同。第一个特征向量可以具有3个标签，第二个，第三个5个）。如果每个文本仅对应一个标签，则尝试使用Naive Bayes分类器，但是我真的不知道如果可以有多个标签该怎么办。有什么方法可以将朴素贝叶斯转换为多标签分类问题（如果有更好的方法-请让我知道）？ PS关于我的数据的几件事。数据集中约有10.000个元素文字约为2-3个句子每个文本最多7个标签

10 machine-learning text-mining

4

如何抓取imdb网页？

我正在尝试自己使用Python学习网络抓取，作为学习数据分析的一部分。我正在尝试抓取网址为以下内容的imdb网页：http : //www.imdb.com/search/title? sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 我正在使用BeautifulSoup模块。以下是我正在使用的代码： r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, genres,runtime, rating, year 我得到以下输出： The Shawshank Redemption …

10 data-mining python scraping

2

在线机器学习图书馆

我正在寻找软件包（以python，R或独立软件包形式）以执行在线学习以预测库存数据。我发现并阅读了有关Vowpal Wabbit（https://github.com/JohnLangford/vowpal_wabbit/wiki）的文章，这似乎很有希望，但是我想知道是否还有其他软件包。提前致谢。

10 machine-learning online-learning

2

可扩展的异常值/异常检测

我正在尝试使用Hadoop，Hive，Elastic Search（以及其他）建立大数据基础架构，并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性，因此不包括使用诸如Weka，R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择，它的特点为回归和聚类算法的任务。我正在努力寻找一种异常或异常检测的解决方案。由于Mahout具有隐马尔可夫模型和多种聚类技术（包括K-Means），所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议，我将不胜感激如果有可能的话怎么做，再加上对所涉及工作的估计这种方法的准确性/问题。

10 data-mining bigdata algorithms outlier

1

R中图的库（标签传播算法/频繁的子图挖掘）

问题的一般描述我有一个图形，其中某些顶点被标记为具有3或4个可能值的类型。对于其他顶点，类型是未知的。我的目标是使用图形来预测未标记顶点的类型。可能的框架根据我对文献的阅读，我怀疑这符合标签传播问题的一般框架（例如，请参见本文和本文）经常被提到的另一种方法是Frequent Subgraph Mining，它包括算法，如SUBDUE，SLEUTH，和gSpan。发现于R 我设法找到的唯一标签传播实现R是label.propagation.community()在igraph库中。但是，顾名思义，它主要用于查找社区，而不是用于对未标记的顶点进行分类。似乎也有几个对subgraphMining库的引用（例如，在这里），但是CRAN似乎缺少它。题您是否了解所描述任务的库或框架？

10 classification r graphs

3

日志文件分析：从值部分中提取信息部分

我正在尝试在我们产品之一的多个日志文件上构建数据集。不同的日志文件具有各自的布局和内容。我成功地将它们分组在一起，只剩下一步了... 确实，日志“消息”是最好的信息。我没有所有这些消息的完整列表，并且基于这些消息进行硬编码是一个坏主意，因为该列表每天都可能更改。我想做的是将标识文本与值文本分开（例如：“ Loaded file XXX”变成（标识：“ Loaded file”，值：“ XXX”））。不幸的是，该示例很简单，并且在现实世界中存在不同的布局，有时还有多个值。我当时在考虑使用字符串内核，但它是为了集群化而设计的……cluseting在这里不适用（我不知道各种类型的消息的数量，尽管那会太多）。你有什么主意吗？谢谢你的帮助。 PS：对于那些编程的人，这可能更容易理解。假设该代码包含printf（“ blabla％s”，“ xxx”）->我希望将“ blabla”和“ xxx”分开

10 text-mining clustering

2

从噪声字符串列表中提取规范字符串

我有数千个字符串列表，每个列表都有大约10个字符串。给定列表中的大多数字符串都非常相似，尽管某些字符串（很少）与其他字符串完全无关，而某些字符串包含不相关的单词。可以将它们视为规范字符串的嘈杂变化。我正在寻找一种算法或库，可以将每个列表转换为该规范字符串。这是一个这样的清单。星球大战：第四集新希望 StarWars.com 星球大战第四集-新希望（1977）星球大战：第四集-新希望-烂番茄观看星球大战：第四集-免费在线新希望星球大战（1977）-最伟大的电影 [REC] 4个海报承诺通过舷外发动机致死-SciFiNow 对于此列表，任何与正则表达式匹配的字符串^Star Wars:? Episode IV (- )?A New Hope$都是可以接受的。我在Coursera上看过Andrew Ng的机器学习课程，但是找不到类似的问题。

10 nlp similarity information-retrieval

2

在国际象棋中实现时间差异

我一直在开发一个国际象棋程序，该程序使用alpha-beta修剪算法和一个评估功能，该功能使用以下功能来评估位置：材料，国王安全性，移动性，典当结构和被困件等..我的评估功能是源自 F（p ）= w1个⋅ 材料+ w2⋅ 国王安全+ w3⋅ 流动性+ w4⋅ 典当结构+ w5⋅ 被困件F（p）=w1个⋅材料+w2⋅国王安全+w3⋅流动性+w4⋅典当结构+w5⋅被困的碎片f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} 其中是分配给每个特征的权重。在这一点上，我想使用时间差异来调整评估函数的权重，在此情况下，代理会与自己竞争，并在此过程中从其环境中收集训练数据（这是强化学习的一种形式）。我阅读了一些书籍和文章，以期了解如何在Java中实现此功能，但它们似乎是理论性的，而不是实用的。我需要有关如何根据以前的游戏自动调整评估功能权重的详细说明和伪代码。www

10 machine-learning algorithms reinforcement-learning

4

我应该使用哪些初始步骤来理解大型数据集，以及应该使用哪些工具？

警告：关于机器学习，我是一个完整的初学者，但渴望学习。我有一个很大的数据集，我试图在其中找到模式。数据之间可能存在/不存在相关性，或者与已知变量相关，或者与数据中包含的变量相关，但是我尚未意识到它们实际上是变量/相关的。我猜想这将是数据分析领域中一个熟悉的问题，所以我有几个问题： “银弹”将把所有这些数据都放入统计/数据分析程序中，并处理数据以寻找已知/未知模式以寻找关系。SPSS是否合适，或者是否存在其他更合适的应用程序。我应该学习R之类的语言，并弄清楚如何手动处理数据。这样就不会像我必须手动指定要分析数据的方式以及如何分析这些关系那样使查找关系变得困难。专业数据挖掘者将如何解决此问题，他/他将采取什么步骤？

10 machine-learning data-mining tools beginner

3

统计+计算机科学=数据科学？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为Data Science Stack Exchange 的主题。 5年前关闭。我想成为一名数据科学家。我研究了应用统计（精算科学），所以我有很好的统计背景（回归，随机过程，时间序列，仅举几例）。但是现在，我将攻读智能系统领域的计算机科学硕士学位。这是我的学习计划：机器学习先进的机器学习数据挖掘模糊逻辑推荐系统分布式数据系统云计算知识发现商业情报信息检索文字挖掘最后，以我所有的统计和计算机科学知识，我可以称自己为数据科学家吗？还是我错了？感谢您的回答。

10 machine-learning statistics career

4

为什么几种类型的模型会给出几乎相同的结果？

我一直在分析约40万条记录和9个变量的数据集。因变量是二进制。我已经安装了逻辑回归，回归树，随机森林和梯度增强树。当我在另一个数据集上验证拟合值时，它们全都具有拟合值的虚拟相同优势。为什么会这样呢？我猜这是因为我对可变比率的观察如此之高。如果这是正确的，那么在不同的观察变量比率下，不同的模型将开始产生不同的结果？

10 data-mining classification binary

3

各种统计技术（回归，PCA等）如何根据样本大小和维度进行缩放？

是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放？例如，有一天我的一个朋友告诉我，简单地快速排序大小为n的一维数据的计算时间为n * log（n）。因此，例如，如果我们对X进行y回归（其中X是d维变量），它是否会变成O（n ^ 2 * d）？如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解，它将如何缩放？还是只是获得解决方案与使用重要性测试？我想我比这里的一个好答案更想要一个好的答案来源（例如总结各种统计技术的标度的论文）。举例来说，清单包含多重回归，logistic回归，PCA，cox比例风险回归，K均值聚类等的缩放比例。

10 bigdata statistics efficiency scalability

1

具有非原子特征的预测

我想将非原子数据用作预测的功能。假设我有一个具有以下功能的表： - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ] - Column 5: A List [ 122, Boolean …

10 machine-learning