Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。

4
特征选择与分类精度关系
为分类器选择可用功能子集的方法之一是根据标准(例如信息增益)对它们进行排名,然后使用分类器和已分类功能的子集计算准确性。 例如,如果您的要素是A, B, C, D, E,并且如果它们的排名如下D,B,C,E,A,则可以使用D,D, B然后D, B, C,然后D, B, C, E... 来计算精度,直到精度开始下降。一旦开始减少,就停止添加功能。 在上面的example1中,您将选择要素F, C, D, A并删除其他要素,因为它们会降低准确性。 该方法假设在模型中添加更多特征会提高分类器的准确性,直到达到特定点为止,之后再添加其他特征会降低准确性(如示例1所示) 但是,我的情况有所不同。我已经应用了上述方法,发现添加更多功能会降低精度,直到精度提高为止。 在这种情况下,如何选择功能?您是否只剩F下其余部分?您是否知道为什么精度会先降低然后再提高?

5
机器学习中的维度跳跃
机器学习中的维数跳变问题是什么(在卷积神经网络和图像识别中发生)?我已经在谷歌上搜索了,但是我所得到的只是关于材料形状变形物理的信息。如果有人通过与机器学习有关的示例对它进行解释,这对我会更有帮助。任何人都可以帮我解决这个问题或向我指出可以使用的资源吗?

2
问题空间太大时AI如何学会采取行动
我通过实验和榜样学习得最好。我正在学习神经网络,对(我认为)对分类和回归以及对监督和无监督的学习有很好的理解,但是我偶然发现了一些我无法安静解决的问题。 如果我想训练AI玩复杂的游戏;我在想类似RTS的东西(例如帝国时代,帝国地球等)。在这些类型的游戏中,通常存在许多由玩家控制的实体(单位,建筑物),每个实体具有不同的功能。AI的问题似乎是分类(例如,选择该单位和该动作),但是由于单位数量是变量,因此人们如何以这种方式处理分类问题? 我唯一能想到的是多个网络处于不同的阶段(一个用于整体策略,一个用于控制这种类型的单元,一个用于那种类型的建筑物,等等);但这似乎使问题变得复杂。 有没有很好的例子说明机器学习/神经网络学习复杂的游戏(不是专门针对RTS,而是更复杂的Mario)?

1
使用机器学习进行服务器日志分析
我被分配此任务来分析应用程序的服务器日志,其中包含异常日志,数据库日志事件日志等。我是机器学习的新手,我们将Spark与弹性搜索和Sparks MLlib(或PredictionIO)结合使用。结果将是能够基于收集到的异常日志进行预测,从而能够预测哪个用户更有可能导致下一个异常以及哪个功能(以及其他跟踪和改进应用程序优化的功能)。 我已经成功地能够将数据从ElasticSearch吸收到spark中并创建DataFrames并映射所需的数据。我想知道的是我如何实现实现的机器学习方面。我浏览过有关数据预处理,训练数据模型和创建标签然后生成预测的文章和论文。 我的问题是 如何将现有的日志数据转换为数值向量,该数值向量可用于要训练的数据集。 我使用什么算法来训练我的数据集(在过去几天中,我所掌握的知识有限,我正在考虑实施线性回归,请提出最佳实施方案) 只是在寻找有关如何解决此问题的建议。 谢谢。

2
合作强化学习
我已经有一个针对单个代理的有效实现,该代理正在处理动态定价问题,目的是使收入最大化。但是,我要解决的问题涉及到几种可以相互替代的不同产品,因此,用独立学习者对所有产品进行动态定价似乎是不正确的,因为一种产品的价格会影响另一种产品的回报。目标将是对它们全部进行动态定价,以使每个单独收入的总和最大化。Q (λ )问(λ)Q(\lambda) 我一直在做一些研究,试图找到一些可以通过这种方式应用强化学习的东西,但是我发现许多多代理实现更多地关注于竞争性游戏,而不是合作性游戏,或者它们假设其他代理的知识不完整(我会完全在这种情况下每个代理的知识)。是否以这种方式对合作学习进行了充分研究/记录的应用?


1
监督学习算法中的多个标签
我有一个带有相应主题的文本语料库。例如"A rapper Tupac was shot in LA",它被标记为["celebrity", "murder"]。因此,基本上每个特征向量可以具有多个标签(数量不相同。第一个特征向量可以具有3个标签,第二个,第三个5个)。 如果每个文本仅对应一个标签,则尝试使用Naive Bayes分类器,但是我真的不知道如果可以有多个标签该怎么办。 有什么方法可以将朴素贝叶斯转换为多标签分类问题(如果有更好的方法-请让我知道)? PS关于我的数据的几件事。 数据集中约有10.000个元素 文字约为2-3个句子 每个文本最多7个标签

2
在线机器学习图书馆
我正在寻找软件包(以python,R或独立软件包形式)以执行在线学习以预测库存数据。 我发现并阅读了有关Vowpal Wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki)的文章,这似乎很有希望,但是我想知道是否还有其他软件包。 提前致谢。

2
在国际象棋中实现时间差异
我一直在开发一个国际象棋程序,该程序使用alpha-beta修剪算法和一个评估功能,该功能使用以下功能来评估位置:材料,国王安全性,移动性,典当结构和被困件等..我的评估功能是源自 F(p )= w1个⋅ 材料+ w2⋅ 国王安全+ w3⋅ 流动性+ w4⋅ 典当结构+ w5⋅ 被困件F(p)=w1个⋅材料+w2⋅国王安全+w3⋅流动性+w4⋅典当结构+w5⋅被困的碎片f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} 其中是分配给每个特征的权重。在这一点上,我想使用时间差异来调整评估函数的权重,在此情况下,代理会与自己竞争,并在此过程中从其环境中收集训练数据(这是强化学习的一种形式)。我阅读了一些书籍和文章,以期了解如何在Java中实现此功能,但它们似乎是理论性的,而不是实用的。我需要有关如何根据以前的游戏自动调整评估功能权重的详细说明和伪代码。www

4
我应该使用哪些初始步骤来理解大型数据集,以及应该使用哪些工具?
警告:关于机器学习,我是一个完整的初学者,但渴望学习。 我有一个很大的数据集,我试图在其中找到模式。数据之间可能存在/不存在相关性,或者与已知变量相关,或者与数据中包含的变量相关,但是我尚未意识到它们实际上是变量/相关的。 我猜想这将是数据分析领域中一个熟悉的问题,所以我有几个问题: “银弹”将把所有这些数据都放入统计/数据分析程序中,并处理数据以寻找已知/未知模式以寻找关系。SPSS是否合适,或者是否存在其他更合适的应用程序。 我应该学习R之类的语言,并弄清楚如何手动处理数据。这样就不会像我必须手动指定要分析数据的方式以及如何分析这些关系那样使查找关系变得困难。 专业数据挖掘者将如何解决此问题,他/他将采取什么步骤?

3
统计+计算机科学=数据科学?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为Data Science Stack Exchange 的主题。 5年前关闭。 我想成为一名数据科学家。我研究了应用统计(精算科学),所以我有很好的统计背景(回归,随机过程,时间序列,仅举几例)。但是现在,我将攻读智能系统领域的计算机科学硕士学位。 这是我的学习计划: 机器学习 先进的机器学习 数据挖掘 模糊逻辑 推荐系统 分布式数据系统 云计算 知识发现 商业情报 信息检索 文字挖掘 最后,以我所有的统计和计算机科学知识,我可以称自己为数据科学家吗?还是我错了? 感谢您的回答。

1
具有非原子特征的预测
我想将非原子数据用作预测的功能。假设我有一个具有以下功能的表: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ] - Column 5: A List [ 122, Boolean …

3
处理定期增加的功能集
我正在研究欺诈检测系统。在此领域中,经常会出现新的欺诈行为,因此必须不断向模型中添加新功能。 我想知道(从开发过程的角度来看)处理它的最佳方法是什么?仅将新特征添加到特征向量中并重新训练分类器似乎是一种幼稚的方法,因为将花费太多时间来重新学习旧特征。 我正在考虑为每个功能(或几个相关功能)训练一个分类器,然后将这些分类器的结果与一个整体分类器组合在一起。这种方法有什么缺点吗?如何为整体分类器选择算法?

3
如何对24,000个类别的类别进行编码?
我目前正在研究基因组学的逻辑回归模型。我想作为协变量包括的输入字段之一是genes。大约有24,000个已知基因。在计算生物学中,这种程度的可变性具有许多功能,因此需要成千上万个样本。 如果我LabelEncoder()那些24K基因 然后OneHotEncoder()他们... 24,000列是否会使我的keras培训时间对于2.2 GHz四核i7 CPU不合理? 如果是这样,我可以采用其他方法进行编码吗? 我应该以某种方式尝试将模型的一部分专用于此功能吗? 这是否意味着我需要24K输入节点?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.