Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


3
如何进行数据扩充和训练验证拆分?
我正在使用机器学习进行图像分类。 假设我有一些训练数据(图像),并将其分为训练和验证集。我还想通过随机旋转和噪声注入来增强数据(从原始图像生成新图像)。扩充是离线完成的。 进行数据扩充的正确方法是哪种? 首先将数据分为训练和验证集,然后对训练和验证集进行数据扩充。 首先将数据分为训练集和验证集,然后仅对训练集进行数据扩充。 首先对数据进行数据扩充,然后将数据分为训练和验证集。

3
铰链损失与物流损失的优缺点/局限性
铰链损失可以使用定义max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)和日志损失可以被定义为log(1+exp(−yiwTxi))log(1+exp⁡(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 我有以下问题: 铰链丢失是否存在任何缺点(例如,对http://www.unc.edu/~yfliu/papers/rsvm.pdf中提到的异常值敏感)? 一个与另一个相比有什么区别,优点和缺点?

1
Logistic回归和支持向量机之间的区别?
我知道逻辑回归可以找到一个将训练样本分开的超平面。我也知道,支持向量机会找到具有最大余量的超平面。 我的问题:逻辑回归(LR)和支持向量机(SVM)之间的区别是,LR找到任何将训练样本分开的超平面,而SVM找到具有最大余量的超平面吗?还是我错了? 注意:记得在LR中,当,逻辑函数给出。如果我们假设作为分类阈值,则是超平面或决策边界。θ ·&X = 0θ⋅X=0\theta \cdot x = 00.50.50.50.50.50.5θ ·&X = 0θ⋅X=0\theta \cdot x = 0

2
通过插入号和基本randomForest包从randomForest获得不同的结果
我有点困惑:经过插入符号训练的模型的结果与原始包装中的模型有什么不同?我阅读了使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理?但我在这里不使用任何预处理。 我通过使用插入符号包并调整了不同的mtry值来训练了不同的随机森林。 > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, method = "rf", metric="ROC", tuneGrid = newGrid) > curClassifier = classifierRandomForest 我发现mtry = …

2
关于使用神经网络进行Q学习的问题
我已经按照中所述实施了Q-Learning, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf 为了大约。Q(S,A)我使用如下的神经网络结构, 激活乙状结肠 输入,输入数量+动作神经元的1(所有输入按0-1比例缩放) 输出,单路输出。Q值 N个M隐藏层。 探索方法随机0 <rand()<propExplore 在每次学习迭代中,使用以下公式, 我计算一个Q目标值,然后使用计算一个误差, error = QTarget - LastQValueReturnedFromNN 然后通过神经网络传播错误。 Q1,我走对了吗?我已经看到了一些论文,这些论文的每个动作都实现了一个带有一个输出神经元的NN。 Q2,我的奖励函数返回-1和1之间的数字。当激活函数为S形(0 1)时,可以返回-1和1之间的数字吗? 问题3,根据我对这种方法的理解,给定足够的培训实例,应该对其进行隔离以找到最佳的政策依据?训练XOR有时会在2k次迭代后学习,有时甚至在40k 50k迭代后也不会学习。


1
为什么对一致估计量的定义是如此?一致性的其他定义呢?
引用维基百科: 在统计中,一致估计量或渐近一致估计量是一个估计量-一种计算参数的规则-具有以下性质:随着所使用的数据点的数量无限增加,所得到的估计序列在概率上收敛于θ ^ *。θ ∗θ∗θ∗θ^*θ∗θ∗θ^* 为了使该语句更精确,让θ∗θ∗\theta^*为您要估计的真实参数的值,并让θ^(Sn)θ^(Sn)\hat\theta(S_n)为根据数据估算该参数的规则。然后,可以通过以下方式表达估计量一致性的定义: limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0 我的问题乍看之下似乎很肤浅,但它是:为什么用“一致性/一致性”一词来描述估算器的这种行为? 我之所以关心这一点,是因为从直觉上来说,一致性一词对我来说意味着不同的东西(或者至少对我来说似乎不同,也许可以证明它们是相等的)。让我通过一个例子告诉你这意味着什么。假设“您”始终是“好”(对于“好”的定义),则表示您每次有机会证明/向您证明自己是好时,您确实每次都向我证明自己是好人(或至少大部分时间)。 让我根据直觉来定义估计量的一致性。令“ you”为计算的函数,让“ good”表示您与真实估计值距离(在范式中,好,为什么不是)。那么对一致性的更好定义是: θ*升1θ^θ^\hat{\theta}θ∗θ∗\theta^*l1l1l_1 ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 即使一致性的定义可能不太有用,但对我来说定义一致性的方式对我来说更有意义,因为对于您投入到估算器任何训练/样本集,我将能够做得好,即我会一直做得很好。我知道,对所有n执行此操作有点不切实际(可能是不可能的),但是我们可以通过以下方式修正此定义:θ^θ^\hat\theta ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 也就是说,对于足够大的n,我们的估计量不会比真实差(即,与“真相”相距不超过)(试图捕获您至少需要的直觉)一些例子可以学习/估计任何东西,一旦达到这个数字,如果估计量与我们尝试定义它的方式保持一致,则估计量在大多数情况下都会做得很好。ε θ * Ñ 0ϵϵ\epsilonϵϵ\epsilonθ∗θ∗\theta^*n0n0n_0 …


1
机器学习分类器big-O或complex
为了评估一种新的分类器算法的性能,我正在尝试比较准确性和复杂性(训练和分类中的big-O)。来自Machine Learning:a review,我得到了完整的监督分类器列表,还有算法之间的准确性表,以及来自UCI数据存储库的 44个测试问题。但是,对于常见的分类器,我找不到带有big-O的评论,论文或网站: C4.5 RIPPER(我认为这不可能,但谁知道) 人工神经网络与反向传播 朴素贝叶斯 神经网络 支持向量机 如果有人对这些分类器有任何表达,它将非常有用,谢谢。

3
在随机森林模型中加权最近的数据
我正在使用随机森林训练一个分类模型,以区分6个类别。我的交易数据大约有6万多个观察值和35个变量。这是一个大致的示例。 _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | 2013-05-10 | 78 | US | group3 | |555 | 2013-06-15 | …

1
如果相关,如何从另一个时间序列预测一个时间序列
一年多来,我一直在试图解决这一问题,但进展不大。它是我正在做的一个研究项目的一部分,但我将用我编写​​的一个故事示例进行说明,因为问题的实际范围有点令人困惑(视线跟踪)。 您是一架追踪穿越海洋的敌舰的飞机,因此您已收集了该舰的一系列(x,y,time)坐标。您知道,一艘隐藏的潜艇会随船一起航行以保护它,但是尽管它们的位置之间存在关联,但潜艇经常会从船上滑落,因此虽然它通常在船的附近,但是它也可能在船的另一侧世界偶尔。您想预测潜艇的路径,但不幸的是,它对您而言是隐藏的。 但是在4月份的一个月中,您会注意到潜艇忘记隐藏自己,因此您在进行1000次航行时都对潜艇和船只具有一系列坐标。使用这些数据,您想建立一个模型,以仅考虑船的运动来预测隐藏式潜艇的路径。天真的基准就是说“潜艇位置猜测=”船的当前位置”,但是从4月份可见潜艇的数据中,您会注意到潜艇有可能稍微领先于船舶,因此“潜艇位置“猜测= 1分钟内的位置”是一个更好的估计。此外,4月份的数据显示,当船舶停泊在水中一段较长的时间时,潜艇很可能不在沿海水域巡逻。还有其他模式当然。 以四月份的数据作为训练数据,您将如何构建该模型来预测潜艇的航行路线?我当前的解决方案是临时线性回归,其中因素包括“行程时间”,“船的x坐标”,“船闲置1天”等,然后让R找出权重并进行交叉验证。 。但是,我真的很喜欢从四月份的数据自动生成这些因素的方法。另外,使用序列或时间的模型会很好,因为线性回归不适用,而且我认为这很重要。 感谢您通读所有内容,我很乐意澄清所有内容。


3
神经网络隐藏激活函数的选择
我在其他地方读过,NN中隐藏层激活功能的选择应基于自己的需要,即,如果您需要-1到1范围内的值,请使用tanh并使用Sigmoid来表示0到1的范围。 我的问题是如何知道自己的需求?是否基于输入层的范围,例如使用可以包含输入层的整个值范围的函数,还是以某种方式反映输入层的分布(高斯函数)?还是选择特定的需求问题/领域,并需要一个人的经验/判断才能做出选择?还是仅仅是“使用能够提供最佳交叉验证的最小训练误差的东西?”

1
如何处理神经网络中二进制和连续输入的混合?
我正在R中使用nnet软件包来尝试构建ANN以预测公寓(个人项目)的房地产价格。我是新来的,没有数学背景,所以请和我一起裸露。 我有二进制和连续输入变量。例如,对于神经网络,一些最初为是/否的二进制变量被转换为1/0。其他变量是连续的,如Sqft。 输入数据样本 我已将所有值标准化为0-1比例。也许Bedrooms并且Bathrooms不应该归一化,因为它们的范围仅为0-4? 这些混合输入是否给ANN带来了问题?我已经取得了不错的结果,但是仔细检查一下ANN为某些变量选择的权重似乎没有任何意义。我的代码在下面,有什么建议吗? ANN &lt;- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + Terrace + Washer.Dryer + Doorman + Exercise.Room + New.York.View,data[1:700,], size=3, maxit=5000, linout=TRUE, decay=.0001) 更新: 基于以下有关将二进制输入分成每个值类的单独字段的注释,我的代码现在看起来像: ANN &lt;- nnet(Price ~ Sqft + Studio + X1BR + X2BR + X3BR + …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.