Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。



8
所有模型都没有用吗?有没有确切的模型可能有用?
这个问题在我心中困扰了一个多月。2015年2月的《Amstat新闻》收录了伯克利教授Mark van der Laan 的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计才是一门艺术而不是一门科学。根据他的说法,人们总是可以使用“精确模型”,而我们这样做的失败会导致“缺乏严格……我担心我们在数据科学中的代表地位将被边缘化”。 我同意我们有被边缘化的危险,但是威胁通常来自那些声称(听起来很像范德兰教授的人)他们没有使用某种近似方法,但实际上他们的方法却少得多的人严格的数据模型比经过仔细应用的统计模型还要严格-甚至是错误的统计模型。 我认为可以说范德兰教授对那些重复Box经常使用的话的人很鄙视:“所有模型都是错误的,但有些模型是有用的。” 基本上,正如我读到的那样,他说所有模型都是错误的,并且都是无用的。现在,我该拒绝伯克利大学教授的观点吗?另一方面,他是谁如此轻描淡写地拒绝了我们领域中真正的巨头之一的观点? van der Laan博士在详细阐述时指出:“声明所有模型都是错误的,完全是胡说八道……例如,没有任何假设的统计模型始终是正确的。” 他继续说:“但是通常,我们可以做得更好:我们可能知道数据是独立的相同实验的结果。” 除了非常狭窄的随机采样或受控实验设置外,我看不出有人会知道这一点。作者指出他在有针对性的最大似然学习和有针对性的基于最小损失的学习中的工作,这些工作“将最先进的技术集成到了机器学习/数据自适应估计中,所有因果推理,审查数据,效率和经验方面的令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”ññn 我也同意一些说法。他说,我们需要认真对待我们的工作,我们作为统计学家的角色以及我们的科学合作者。听见!当人们例行使用逻辑回归模型或其他任何方法而没有仔细考虑是否足以回答科学问题或是否适合数据时,这无疑是个坏消息。我确实在该论坛上发布的问题中看到了很多此类滥用行为。但是我也看到不精确模型(甚至参数模型)的有效和有价值的使用。与他所说的相反,我很少被“另一种逻辑回归模型闷死”。我猜这就是我的天真。 所以这是我的问题: 使用完全不做任何假设的模型,可以做出哪些有用的统计推断? 是否存在使用目标最大可能性使用重要的真实数据的案例研究?这些方法是否被广泛使用和接受? 所有不精确的模型真的没有用吗? 除了琐碎的情况以外,是否可能知道您拥有确切的模型? 如果这太基于观点,因此太离题了,该在哪里讨论?因为范德兰博士的文章确实需要进行一些讨论。

4
内核如何应用于要素图以生成其他要素图?
我试图理解卷积神经网络的卷积部分。看下图: 在理解第一个卷积层时,我没有问题,在这里我们有4个不同的内核(大小为),我们将它们与输入图像进行卷积以获得4个特征图。k × kk×kk \times k 我不理解的是下一个卷积层,我们从4个特征图转到6个特征图。我假设在这一层中有6个内核(因此给出了6个输出特征图),但是这些内核如何在C1中显示的4个特征图上工作?内核是3维的,还是2维的,并在4个输入要素图中复制?


13
机器学习可以解码SHA256哈希吗?
我有一个64个字符的SHA256哈希。 我希望训练一个模型,该模型可以预测用于生成哈希的纯文本是否以1开头。 不管这是“可能的”,哪种算法是最佳方法? 我最初的想法: 生成以1开头的大量散列样本和不以1开头的大量散列样本 将哈希的64个字符中的每个字符设置为某种无监督逻辑回归模型的参数。 通过告诉模型正确/错误的时间来训练模型。 希望能够创建一个模型,该模型能够以足够高的精度(以及适当的kappa值)预测明文是否以1开头。

3
了解折扣因素在强化学习中的作用
我正在自学强化学习,并试图理解折扣奖励的概念。因此,必须有奖励才能告诉系统哪些状态操作对是好的,哪些是坏的。但是我不明白的是为什么需要打折的奖励。为什么要尽快达到好状态而不是稍后就变得重要? 我确实知道这在某些特定情况下是相关的。例如,如果您正在使用强化学习在股票市场上进行交易,那么早一点赚钱而不是以后赚钱会更有利。这是因为现在有了这笔钱可以让您现在用那笔钱做事,这比以后再用那笔钱做事更可取。 但在大多数情况下,我看不出为什么打折有用。例如,假设您想让一个机器人学习如何在房间内导航以到达另一侧,如果该空间与障碍物碰撞会受到惩罚。如果没有折扣因素,那么它将学会完美地到达另一端,而不会遇到任何障碍。到达那里可能需要很长时间,但最终会到达那里。 但是,如果我们给予奖励折扣,那么即使机器人在沿途必须与物体碰撞,也会鼓励它迅速到达房间的另一侧。这显然不是理想的结果。当然,您希望机器人快速到达另一侧,但是如果这意味着它必须沿途与物体碰撞,则不要。 因此,我的直觉是,任何形式的折扣因子实际上都会导致次优解决方案。折扣因子的选择通常似乎是任意的-我看到的许多方法都只是将其设置为0.9。这对我来说似乎很幼稚,并且似乎在最佳解决方案和最快解决方案之间做出了任意取舍,而实际上,这一取舍非常重要。 请有人可以帮助我了解所有这一切吗?谢谢 :)


5
机器学习对理解因果关系是否有用,从而对社会科学也没那么有趣?
我对机器学习/其他统计预测技术与社会科学家(例如,经济学家)使用的统计类型之间的区别的理解是,经济学家似乎对理解单个或多个变量的影响非常感兴趣-都在幅度并检测该关系是否为因果关系。为此,您最终会用实验和准实验方法等来关注自己。 可以预测的机器学习或统计建模通常会完全忽略这一方面,并​​且在许多情况下并不能给您提供一个变量会影响结果的特定程度(logit和probit似乎都可以)。 一个相关的问题是,在预测新领域时,理论上启发的经济或行为模型在何种程度上比理论模型具有优势?机器学习或面向预测的统计学家会对批评说什么:没有经济模型,您将无法正确预测协变量非常不同的新样本。 我很高兴听到人们从各个角度对此采取的态度。

6
为什么要降采样?
假设我想学习一个预测电子邮件是否为垃圾邮件的分类器。假设只有1%的电子邮件是垃圾邮件。 最简单的方法是学习琐碎的分类器,该分类器说所有电子邮件都不是垃圾邮件。该分类器将为我们提供99%的准确性,但它不会学到任何有趣的东西,并且误报率高达100%。 为了解决这个问题,人们告诉我“降低采样率”,或学习其中50%的示例是垃圾邮件而50%的示例不是垃圾邮件的数据子集。 但是我担心这种方法,因为一旦我们建立了此分类器并开始在真实的电子邮件主体(而不是50/50测试集)上使用它,它可能会预测许多电子邮件在成为垃圾邮件时真的不是。只是因为它过去经常看到比数据集中实际更多的垃圾邮件。 那么我们如何解决这个问题呢? (“上采样”或多次重复正面训练示例,因此50%的数据是正面训练示例,似乎也遇到类似的问题。)


1
如何解释错误措施?
我正在Weka中为某个数据集运行分类,并且我注意到,如果我试图预测标称值,则输出将具体显示正确和错误地预测的值。但是,现在我为数字属性运行它,输出为: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 我该怎么解释?我已经尝试过搜索每个概念,但由于统计数据完全不在我的专业领域,因此我不太了解。就统计而言,我将非常感谢ELI5类型的答案。

1
softmax_cross_entropy_with_logits与softmax_cross_entropy_with_logits_v2有何不同?
具体来说,我想我对此语句感到疑惑: TensorFlow的未来主要版本默认将允许梯度流入backprop上的标签输入中。 使用时会显示出来tf.nn.softmax_cross_entropy_with_logits。在同一封信中,它敦促我看看tf.nn.softmax_cross_entropy_with_logits_v2。我浏览了文档,但只说明了tf.nn.softmax_cross_entropy_with_logits_v2: 反向传播将同时出现在logit和标签中。要禁止反向传播到标签中,请在将标签张量馈入此函数之前将其张量传递给stop_gradients。 而不是tf.nn.softmax_cross_entropy_with_logits: 反向传播只会在logit中发生。 对于该主题来说是一个新手(我正在尝试通过一些基本教程进行学习),这些陈述并不十分清楚。我对反向传播有一个较浅的了解,但是前面的陈述实际上是什么意思?反向传播和标签如何连接?与tf.nn.softmax_cross_entropy_with_logits_v2原始作品相比,这将如何改变我的工作方式?

5
实用的超参数优化:随机与网格搜索
我目前正在研究Bengio和Bergsta的用于超参数优化 的随机搜索[1],作者声称随机搜索比网格搜索更有效地实现近似相等的性能。 我的问题是:这里的人是否同意这种说法?在我的工作中,我之所以一直使用网格搜索,主要是因为缺少可轻松执行随机搜索的工具。 人们使用网格搜索与随机搜索的体验如何?

4
召回率和分类精度
尽管每次都是在信息检索的上下文中,但我还是阅读了一些有关回忆和精确度的定义。我想知道是否有人可以在分类环境中对此进行更多解释,并举例说明一些例子。比如说我有一个二进制分类器,它给我60%的精度和95%的召回率,这是一个很好的分类器吗? 也许可以进一步帮助我实现目标,那么根据您的最佳分类器是什么?(数据集不平衡。多数类的数量是少数类的示例的两倍) 我个人会说5,因为接收器操作员曲线下方的区域。 (如您在这里看到的,模型8的精度较低,召回率很高,但是AUC_ROC最低,这使它成为好模型还是坏模型?) 编辑: 我有一个包含更多信息的Excel文件:https : //www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx 在此文档中,可以找到接收方算子曲线下的区域以及精确召回曲线下的区域。连同情节。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.