数据科学 machine-learning

2

在我们的数据科学最后课程项目中，我们提出了以下建议：给 Amazon Reviews数据集，我们计划提出一种算法（该算法大致基于Personalized PageRank），该算法确定将广告投放到Amazon的战略位置。例如，亚马逊上有数百万种产品。数据集使您了解哪些产品相关，哪些产品组合在一起，一起查看等。（我们可以使用还查看和购买的信息构建图表），还为您提供与每种产品相关的评论14年。使用所有这些信息，我们将在亚马逊上对产品进行评分/排名。现在，您是Amazon上的供应商，希望提高其产品页面的访问量。我们的算法可帮助您确定图表中的战略位置，您可以在其中放置广告，从而获得最大流量。现在，我们教授的问题是，在没有实际用户的情况下，您将如何验证算法？我们说- 我们可以为一组固定的用户建模。与第一跳或第五跳相比，某些用户更频繁地跟踪also_bought并also_viewed链接到第三跳。那里的用户行为是正态分布的。其他一些用户几乎无法超越第一跳。这组用户的行为呈指数分布。我们的教授说-无论用户遵循什么发行方式，用户都在使用相似产品的链接进行导航。您的排名算法还考虑了b / w 2个相似度产品对产品进行排名。因此，使用此验证算法有点cheating。带有其他一些用户行为，这些行为更逼真且与算法正交。关于如何模拟用户行为的任何想法？我很乐意提供有关该算法的更多详细信息。

9 machine-learning data-mining dataset recommender-system

3

情感分析教程

我正在尝试理解情绪分析以及如何使用任何语言（R，Python等）应用它。我想知道互联网上是否有适合我学习的教程。我用谷歌搜索，但是我不是很满意，因为它们不是教程，而是更多的理论。我想要理论和实际的例子。

9 machine-learning reference-request sentiment-analysis

2

在python中实现互补朴素贝叶斯？

问题我曾尝试在标记的犯罪数据集上使用朴素贝叶斯，但结果却很差（准确性为7％）。朴素贝叶斯的运行速度比我一直在使用的其他算法要快得多，因此我想尝试找出分数为何如此之低的原因。研究阅读后，我发现朴素贝叶斯应与平衡数据集一起使用，因为它偏向于频率较高的类。由于我的数据不平衡，因此我想尝试使用互补朴素贝叶斯，因为它专门用于处理数据偏斜。在描述该过程的论文中，该应用程序用于文本分类，但是我不明白为什么该技术在其他情况下不起作用。您可以在这里找到我所指的论文。简而言之，想法是根据类未出现的情况使用权重。经过一些研究，我能够找到Java的实现，但是不幸的是，我不了解任何Java，只是我对算法的理解不足以实现自己。题在哪里可以找到python的实现？如果不存在，我应该如何自己实施呢？

9 machine-learning classification python naive-bayes-classifier

4

强化学习书籍

一段时间以来，我一直在尝试了解强化学习，但是以某种方式，我无法直观地看到如何编写强化学习程序来解决网格世界问题。您能为我推荐一些教科书，以帮助我建立清晰的强化学习概念吗？

9 machine-learning books reinforcement-learning

5

关于深梦的应用有什么想法吗？

最近，Google发布了有趣的深梦。除了诸如http://deepdreamgenerator.com/之类的艺术创作之外，您还看到深度梦想在计算机视觉或机器学习中的任何潜在应用吗？

9 machine-learning deep-learning

2

VC尺寸与自由度之间的关系

我正在研究机器学习，我觉得VC维度的概念与更经典（统计）的自由度概念之间有着很强的联系。谁能解释这种联系？

9 machine-learning self-study

2

是否存在与降维相反的方法？

我是机器学习领域的新手，但是我在信号处理方面做得很出色。请让我知道这个问题是否贴错标签。我有至少由三个变量定义的二维数据，其高度非线性的建模方式太复杂而无法模拟。在使用PCA和ICA之类的方法（来自python库Scikit-Learn）中从数据中提取两个主要成分方面，我取得了不同程度的成功，但似乎这些方法（或至少这些方法的实现）受到限制从数据中提取尽可能多的分量，例如，从2D点云中提取2个分量。在绘制数据时，训练有素的眼睛清楚地看到存在三种不同的线性趋势，这三种色线显示了方向。使用PCA时，主组件与一条色线对齐，另一条与色线对齐，如预期的那样。使用ICA时，第一个组件与蓝线对齐，第二个组件在红色和绿色组件之间。我正在寻找一种可以重现信号中所有三个成分的工具。编辑，其他信息：我在这里工作在较大相位平面的一小部分中。在这个很小的子集中，每个输入变量在平面上都会产生线性变化，但是这种变化的方向和幅度是非线性的，并且取决于我正在工作的较大平面上的确切位置。在某些地方，其中两个变量可以退化：它们在同一方向上产生变化。例如，假设模型取决于X，Y和Z。变量X的变化将产生沿蓝线的变化；Y引起沿绿线的变化；Z，沿着红色的。

9 machine-learning scikit-learn

1

将Vowpal Wabbit用于NER

Vowpal Wabbit（VW）显然通过SEARN支持序列标记功能。问题是我无法在任何地方找到带有说明和一些示例的详细参数列表。我能找到的最好的例子是Zinkov的博客文章，其中有一个非常简短的例子。该主wiki页面几乎没有提到SEARN。在签出的源代码中，我找到了带有一些NER示例数据的演示文件夹。不幸的是，运行所有测试的脚本没有显示如何在此数据上运行。至少了解一下期望的格式是足够有用的：与标准VW数据格式几乎相同，除了条目之间用空白行分隔（这很重要）。我目前的理解是运行以下命令： cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \ --searn_passes_per_policy 2 -b 30 -f twpos.vw 哪里 --searn 25 -NER标签总数（？） --searn_task sequence -序列标记任务（？） --searn_passes_per_policy 2 -不知道它做什么其他参数是大众的标准配置，无需其他说明。也许还有更多特定于SEARN的参数？它们的重要性和影响是什么？如何调整它们？有什么经验法则吗？任何指向示例的指针将不胜感激。

9 machine-learning nlp

1

学习信号编码

我有大量样本，它们将曼彻斯特编码的比特流表示为音频信号。它们的编码频率很高时，它是主要的频率成分，并且背景中始终有恒定的白噪声。我已经手动解码了这些流，但是我想知道是否可以使用某种机器学习技术来学习编码方案。这将节省大量手动识别这些方案的时间。困难在于不同的信号被不同地编码。是否有可能建立一个可以学习解码多个编码方案的模型？这样的模型有多健壮，我想采用哪种技术？独立分量分析（ICA）似乎对隔离我关心的频率有用，但是我将如何学习编码方案？

9 machine-learning data-mining scalability algorithms feature-selection

4

建议文本分类器训练数据集

我可以使用哪些免费数据集来训练文本分类器？我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度，因此我们认为，如果我们根据预定义的单词袋对内容进行分类，那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现，如果使用与内容无关的预定义词袋，则特征向量将充满零，类别也可能与内容不相关。因此出于这些原因，我们尝试了另一种解决方案，该解决方案将内容分类而不是对其进行分类。谢谢：）

9 machine-learning classification dataset clustering text-mining

2

使用智能手机数据集问题的人类活动识别

我是这个社区的新手，希望我的问题很适合这里。作为我的本科数据分析课程的一部分，我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言，这个主题与机器学习和支持向量机有关。我对这种技术还不太熟悉，因此我需要一些帮助。我已决定遵循此项目构想http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html（顶部的第一个项目）该项目的目标是确定一个人的活动根据智能手机（三星Galaxy S II）在对象腰部记录的数据进行（例如，行走，行走，向上，行走，下坐，坐着，站立，躺着）。使用其嵌入式加速度计和陀螺仪，数据包括以50Hz恒定速率的3轴线性加速度和3轴角速度。所有数据集在一个文件夹中给出，带有一些描述和功能标签。数据分为“测试”和“训练”文件，其中数据以这种格式表示： 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 这只是文件包含内容的很小一部分。我真的不知道这些数据代表什么以及如何解释。另外，对于数据的分析，分类和聚类，我需要使用哪些工具？有什么办法可以将包含标签的数据放入excel，例如使用R或python提取示例数据并进行处理？任何提示/技巧将不胜感激。

9 bigdata machine-learning databases clustering data-mining

1

分类处理不平衡班级的方法

对已解决不平衡类问题的方法进行分类的最佳方法是什么？此文章对其进行分类为：预处理：包括过采样，欠采样和混合方法，成本敏感型学习：包括直接方法和元学习，后者进一步分为阈值和抽样，合奏技术：包括对成本敏感的合奏和数据预处理以及合奏学习。在第二个分类：数据预处理：包括分布更改和加权数据空间。一类学习被认为是分布的变化。特殊目的学习方法预测后处理：包括阈值方法和对成本敏感的后处理混合方法：第三篇文章：数据级方法算法级方法混合方法最后的分类也将输出调整视为独立的方法。提前致谢。

8 machine-learning classification class-imbalance

2

为什么有限精度是机器学习中的一个问题？

您能解释什么是有限精度吗？为什么有限精度是机器学习中的一个问题？

8 machine-learning terminology definitions finite-precision

3

是否有任何机器学习技术来识别地块/图像上的点？

我具有随时间和车道数得出的每辆车横向位置的数据，如以下图像和示例数据中的这3个图所示。 > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 横向位置会随时间变化，因为驾驶员无法完全控制车辆的位置。当横向位置急剧变化时，变道操纵开始，当变化再次变为“正常”时，变道操纵结束。无法直接从数据中识别出来。我必须手动查看每辆车的图，以确定车道变更操作的起点和终点，以便估算车道变更的持续时间。但是我在数据集中有成千上万辆汽车。您能否将我引导至可以训练以识别这些点的任何相关图像分析/机器学习算法？我在R工作。

8 machine-learning r

2

当我的训练集中没有y负值时，为什么Gradient Boosting回归预测负值？

当我增加树木的数量在scikit学习的GradientBoostingRegressor，我得到更多的负面预测，即使在我的训练或测试组没有负值。我有大约10个功能，其中大多数是二进制的。我正在调整的一些参数是：树木/迭代次数；学习深度；和学习率。负值的百分比似乎最大约为2％。1（树桩）的学习深度似乎是负值的最大百分比。随着树木的增多和学习率的降低，这一百分比似乎也有所增加。该数据集来自kaggle游乐场比赛之一。我的代码是这样的： from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

8 machine-learning python algorithms scikit-learn kaggle

Questions tagged «machine-learning»