Questions tagged «machine-learning»

与某些数据集“训练”的算法有关。

14
简单可靠地检测文本代码的方法?
GMail具有此功能,如果您尝试发送它认为可能带有附件的电子邮件,它将向您发出警告。 由于GMail检测到see the attached电子邮件中的字符串,但没有实际附件,因此当我单击“发送”按钮时,它会通过“确定” /“取消”对话框警告我。 我们在堆栈溢出方面有一个相关的问题。也就是说,当用户进入后像这样的: 我的问题是我需要更改数据库,但我不会创建 一个新的连接。例: 数据集dsMasterInfo = new DataSet(); 数据库db = DatabaseFactory.CreateDatabase(“ ConnectionString”); DbCommand dbCommand = db.GetStoredProcCommand(“ uspGetMasterName”); 该用户未将其代码格式化为代码! 也就是说,他们没有为每个Markdown缩进4个空格,也没有使用代码按钮(或键盘快捷键ctrl+ k)为他们这样做。 因此,我们的系统正在接受很多编辑,人们必须进入这些编辑区域,并手动为无法解决该问题的人们设置代码格式。这导致很多肚皮舞。我们已经多次改善了编辑器的帮助,但是由于没有赶到用户家并为他们按下键盘上的正确按钮,我们无所适从,不知道下一步该怎么做。 这就是我们考虑使用Google GMail样式警告的原因: 您是要发布代码吗? 您编写了我们认为看起来像代码的内容,但是没有使用工具栏代码按钮或ctrl+ k代码格式化命令通过缩进4个空格来将其格式化为代码。 但是,提出此警告要求我们检测问题中是否存在我们认为未格式化的代码。一种简单,半可靠的方法是什么? 根据Markdown的规定,代码总是缩进4个空格或在反引号内,因此任何格式正确的代码都可以立即从支票中丢弃。 这仅是警告,并且仅适用于声誉低下的用户提出第一个问题(或提供其第一个答案),因此,只要它们的错误率在5%或以下,就可以接受一些误报。 关于堆栈溢出的问题可以使用任何语言,尽管实际上可以将检查范围限制为“十大”语言。每个标记页面都是C#,Java,PHP,JavaScript,Objective-C,C,C ++,Python,Ruby。 使用Stack Overflow Creative Commons数据转储来审核您可能的解决方案(或仅在Stack Overflow 的前10个标签中选择几个问题),然后查看其效果。 伪代码很好,但是如果您想变得更加友好,我们可以使用c#。 越简单越好(只要可行)。吻!如果您的解决方案需要我们尝试用10种不同的编译器来编译帖子,或者需要一群人来手动训练贝叶斯推理引擎,那...就不完全是我们的初衷。

5
R与Python进行数据分析[关闭]
我已经进行了大约一年的编程,并且我对数据分析和机器学习非常感兴趣。我正在参加一些在线课程,并且正在阅读几本书。 我正在做的所有事情都使用R或Python,并且我正在寻找有关是否应该专注于一种语言(如果需要的话)还是同时使用这两种语言的建议。他们互相补充吗? -我应该提到我在学校使用C#,但是通过自学熟悉了Python。

1
决策树与神经网络
此问题是从Stack Overflow 迁移而来的,因为可以在Software Engineering Stack Exchange上回答。 迁移 7年前。 我正在实现一种机器学习结构,以尝试预测诸如银行等金融系统上的欺诈行为。这意味着可以使用许多不同的数据来训练模型。卡号,持卡人姓名,金额,国家等... 我在确定哪种结构最适合此问题时遇到了麻烦。我对决策树有一些经验,但是目前我开始质疑神经网络是否可以更好地解决此类问题。另外,如果有其他任何最佳方法,请随时启发我。 每个结构的优缺点是什么,哪种结构最适合该问题? 我也不确定这个事实,但是我认为决策树在执行速度方面比神经网络有很大的优势。这很重要,因为速度也是该项目的关键因素。

7
机器学习应用于代码开发
我的背景是机械工程,所以请原谅我对此领域的无知。 我真的很喜欢编程和软件开发。另外,最近,我强烈推荐由斯坦福大学教授吴国安(Andrew Ng)教授的免费在线机器学习(ML)课程。链接到这里。 我听说这位教授说很难找到ML永远不会影响的领域。 题 所以我的问题是,迄今为止在将机器学习应用于代码开发方面进行了哪些研究?调试如何? 如果可能,请包括资源/资源/科学论文。 我没有运气搜索,因为经常搜索ML 和软件开发(或编程)最终导致ML应用程序的软件开发(或编程)的结果。

1
机器学习如何纳入搜索引擎设计中?
我目前正在建立一个基于Apache Lucene的小型内部搜索引擎。它的目的很简单-根据一些关键字,它将建议一些在公司内部撰写的文章。我使用相当标准的TF-IDF评分作为基本指标,并在此基础上建立了自己的评分机制。所有这些似乎都工作得很好,除了一些极端情况下,排名似乎一团糟。 因此,我打算做的是在搜索结果页面上添加一个小的“相关/不相关”链接,以便用户可以根据对结果是否应该首先包含在内的感知,单击其中的一个。 我的点子 将这些相关/不相关视为标签并创建训练数据。 使用此数据来训练分类器(例如SVM) 将此模型整合到搜索引擎中,即,每个新结果都将通过分类器,并为其分配是否相关的标签。 对我来说,这种方法似乎很直观,但是不确定它是否会在实践中起作用。我有两个具体问题: 我应该提取什么所有功能? 有没有更好的方法将机器学习组件集成到搜索引擎中?我的最终目标是基于业务逻辑和用户反馈来“学习”排名功能。

3
转向机器学习职业[关闭]
按照目前的情况,这个问题并不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 我的日常工作是简单的旧软件开发。我也在攻读CS硕士学位(兼职,基于课程)。我上了一门关于AI的课程,发现机器学习非常有趣,但是像大多数课程一样,它仅提供了基本的介绍。 我打算学习有关机器学习的更多信息,并在可能的情况下找到该领域的工作。当我查看该领域的职位发布时,很明显,其中大多数需要机器学习博士学位(或具有相当专业知识的该领域的先前经验)。 我正在寻找有关自我学习的建议,以获取对行业有用的经验。至少有足够的经验可以涉足。我会做一些显而易见的事情,例如阅读教科书,论文等。也许我可以参加任何开源工作,或者我可以自己做些什么? 抱歉,如果我在这里含糊不清,但我希望至少有一些人做了类似的更改并可以提供建议。 谢谢 !

5
可以想象教一台机器如何按照定义的规范进行编程吗?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 5年前关闭。 我的一个没有编程知识的朋友问我这个问题,我发现它很有趣。 我认为这是不可能的,因为这将需要真正先进的人工智能,该人工智能能够分析问题的文本,考虑解决方案并对其进行编程。对我而言,仅仅考虑一台能够编写简单计算器的机器就显得非常先进。 但是也许我错了,我想知道您对此有何看法,是否知道有关该主题的任何文章/研究,是否已经存在,或者是否有可能选择规格并获取机器可以对此“规范”进行自我编程?

2
算法收敛意味着什么?
在阅读有关强化学习的内容时,我会不断遇到这个词,例如,这句话: 如果仔细地对问题进行建模,则某些强化学习算法可以收敛到全局最优值 http://reinforcementlearning.ai-depot.com/ 或在这里: 对于任何固定策略Pi,已经证明上述TD算法可以收敛到VPi http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node62.html 我对“收敛”这个词的理解是,它意味着将多个事物放到同一点,但是单个事物(算法)如何做到这一点?

3
神经网络能否提供比“是”或“否”更多的答案?
我读过的每个用于图像识别的示例神经网络都会产生一个简单的“是”或“否”答案。一个出口节点对应于“是,这是一张人脸”,一个出口节点对应于“否,这不是一张人脸”。 我了解这可能是为了简化说明,但我想知道如何对这样的神经网络进行编程以提供更具体的输出。例如,假设我正在对动物进行分类。与其说“动物”或“不是动物”,不如说是“狗”,“鱼”,“鸟”,“蛇”等响应,而最后一个退出节点是“不是动物/我”不认识这个”。 我敢肯定这是有可能的,但是我在理解如何做上有困难。似乎是由于错误的反向传播训练算法所致,当您训练一个出口节点(即“这是一条狗”)并且神经元的权重发生变化时,您先前训练的另一个出口节点的理想状态受过训练的人(即“这是一只鸟”)将开始偏离,反之亦然。因此,训练网络以识别一个类别将破坏对另一类别所做的任何训练,从而将我们限制为简单的“是”或“否”设计。 这会使这种识别器成为不可能吗?还是我误解了算法?我能想到的只有两件事: 我们可以为要分类的每个事物训练一个神经网络,然后以某种方式使用它们来构建更大的超级网络(例如,“狗”网络,“鸟”网络等)一起创建“动物”的超级网络);要么, 创建某种荒谬的,复杂的训练方法,这将需要极其先进的数学,并且将以某种方式为所有可能的输出(换句话说insert math magic here)产生理想的神经元权重状态。 (旁注1:我专门将多层感知器视为一种神经网络。) (注2:对于第一个项目符号“可能的解决方案”,具有每个特定的神经网络并对其进行迭代,直到我们收到“是”的响应是不够的。我知道可以很容易地做到这一点,但这很简单编程而不是机器学习。我想知道是否有可能使用一个神经网络将信息提供给并接收适当的响应。)

2
学习机器学习需要哪些数学技能?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,以使它成为软件工程堆栈交换的主题。 4年前关闭。 我有兴趣参加有关机器学习的在线课程。就目前而言,我的数学非常基础,而我基本上是在可汗学院从零开始学习数学。在编程方面,我有相当多的经验,并且有很好的整体理解。我的问题是,我需要什么数学技能才能有效地理解和利用机器学习?

9
学习国际象棋的规则
一个类似的问题询问计算机是否可以通过分析数千种游戏来学习以最佳方式下棋。 如果一台机器在开始和每次移动之后可以看几局棋(或几局跳棋)的棋盘状态,是否可以对它进行编程以学习游戏规则? 如果可以的话,这项工作在多大程度上(例如,它能够考虑到晋升或晋升)?哪种机器学习算法将使之成为可能?

4
使用机器学习瞄准太阳阵列中的镜子?
我一直在思考太阳能收集器,其中几个独立的镜将光聚焦在太阳能收集器上,类似于Energy Innovations的以下设计。 由于此太阳能电池阵列的组装会有缺陷,因此,我在进行以下假设(或缺乏假设): 该软件知道每个镜像的“位置”,但不知道此位置与现实世界或其他镜像的关系。这将说明反射镜校准不佳或其他环境因素可能会影响一个反射镜,而不会影响其他反射镜。 如果镜子在一个方向上移动10个单位,然后在相反方向上移动10个单位,则它将在最初开始的位置结束。 我想使用机器学习来正确放置镜子并将光线聚焦在收集器上。我希望我将其作为一个优化问题,优化反射镜的位置,以最大化收集器内部的热量和功率输出。 问题是在嘈杂的高维空间中找到一个小的目标(考虑到每个反射镜都有2个旋转轴)。我预期的一些问题是: 多云的日子,即使您偶然碰到了完美的镜子对准,在当时也可能是多云的 噪声传感器数据 太阳是一个移动的目标,它沿着一条路径移动,并且每天遵循不同的路径-尽管您可以随时计算太阳的确切位置,但是您不知道该位置与镜子之间的关系 我的问题不是关于太阳能电池板,而是可能的机器学习技术,它可以帮助解决“嘈杂的高维空间中的小目标”问题。我提到太阳能电池板是因为它是这个问题的催化剂和一个很好的例子。 哪种机器学习技术可以在嘈杂的高维空间中找到如此小的目标? 编辑: 一些其他想法: 是的,您可以计算太阳在现实世界中的位置,但是您不知道镜子的位置与现实世界之间的关系(除非您以某种方式了解了它)。您可能知道太阳的方位角是220度,太阳的仰角是60度,并且您可能知道镜子在位置(-20,42);现在告诉我,那面镜子与太阳正确对准了吗?你不知道 假设您进行了一些非常复杂的热量测量,并且知道“在此热量水平下,必须正确对齐2个反射镜”。现在的问题是,哪两个镜子(25个或更多)正确对齐? 我考虑的一种解决方案是使用神经网络来逼近正确的“对准函数”,该神经网络将太阳的方位角和仰角作为输入并输出一个大型数组,每个数组的2个值对应于每个镜子的2轴。我不确定最好的训练方法是什么。 更多想法: 镜子确实具有软件可以访问的坐标系,但是软件不知道该坐标系与现实世界之间的关系。假设镜子位于位置(4,42);这意味着什么?我不知道,软件也不知道。但是我确实知道,如果我移动镜子,然后再将其移回(4,42),镜子将处于以前的位置。另外,两个镜子可能在位置(4、42),但在现实世界中指向相反的方向。 是的,有了很多高质量的传感器,这个问题很容易解决。据我所知,Energy Innovations停业了,这可能是因为它们使用了一堆非常棒的传感器,而且人们说:“我只买太阳能电池板,它们更便宜。” 系统中唯一的传感器在收集器头中。

3
可以使用哪种算法来实现合理的下一个单词预测?
实现“下一个单词预测”的好方法是什么?例如,用户键入“我是”,并且系统建议“ a”和“ not”(或其他可能)作为下一个单词。我知道一种使用马尔可夫链和一些训练文本(显然)来或多或少地实现这一目标的方法。但是我在某处读到,该方法非常严格,适用于非常简单的情况。 我了解神经网络和遗传算法的基础知识(尽管从未在严肃的项目中使用过它们),也许它们可能会有所帮助。我想知道是否有任何算法可以在给定适当的培训文本(例如报纸文章和用户自己的打字)的情况下为下一个单词提出合理适当的建议。如果没有(链接到)算法,则欢迎使用一般的高级方法来解决此问题。

2
带有分类和连续数据的机器学习
这个问题可能会在这里或关于... 假设您的训练数据集同时包含分类数据和连续数据,例如: Animal, breed, sex, age, weight, blood_pressure, annual_cost cat, calico, M, 10, 15 , 100 , 100 cat, tabby, F, 5, 10 , 80 , 200 dog, beagle, M, 3, 30 , 90 , 200 dog, lab, F, 8, 75 , 80 , 100 可以预测的因变量是年度兽医成本。对于处理此类数据集的具体技术,我有些困惑。处理连续数据和分类数据混合的数据集的常用方法是什么?

5
学习图像处理的最佳方法是什么?[关闭]
想要改善这篇文章吗?提供此问题的详细答案,包括引文和为什么答案正确的解释。答案不够详细的答案可能会被编辑或删除。 关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为软件工程堆栈交换的主题。 6年前关闭。 我是一所大学的大四学生,之前没有做过很多图像处理(智能手机上的一些基本图像压缩除外)。我将在下学期开始一项有关机器学习的研究项目,这将需要一些生物医学图像处理。在大约两个月的时间里,掌握图像处理基础知识的最佳方法是什么?还是不切实际? 我的印象是,一旦掌握了基础知识,从其他资源中学习更多内容将变得更加容易。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.