Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
第一个主要组件不会分隔类别,而其他PC会分开。那怎么可能?
我对17个定量变量运行了PCA,以获取较小的变量集(即主要成分),该变量集用于有监督的机器学习中,用于将实例分为两类。在PCA之后,PC1占数据方差的31%,PC2占数据的17%,PC3占10%,PC4占8%,PC5占7%,PC6占6%。 但是,当我看两类计算机之间的均值差异时,令人惊讶的是,PC1不能很好地区分两类计算机。剩下的PC就是很好的鉴别器。另外,PC1在决策树中使用时变得无关紧要,这意味着在修剪树后甚至在树中都不存在它。该树由PC2-PC6组成。 这个现象有什么解释吗?衍生变量会出问题吗?

1
训练卷积神经网络
我目前正在开发使用卷积神经网络识别面部的面部识别软件。根据我的阅读,我收集到卷积神经网络具有权重,以节省训练时间。但是,如何适应反向传播,以便可以在卷积神经网络中使用。在反向传播中,人们使用与此类似的公式来训练权重。 New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta 但是,由于在卷积神经网络中权重是共享的,因此每个权重都与多个神经元一起使用,那么如何确定使用哪个权重Output of InputNeuron? 换句话说,由于权重是共享的,我该如何决定将权重改变多少?

2
感知器的决策边界图
我试图绘制感知器算法的决策边界,我对一些事情感到非常困惑。我的输入实例的格式为,基本上是2D输入实例(x 1和x 2)和二进制类目标值(y)[1或0]。[ (x1个,X2),ÿ][(x1,x2),y][(x_{1},x_{2}), y]X1个x1x_{1}X2x2x_{2}ÿyy 因此,我的权重向量的形式为:。[w1,w2][w1,w2][w_{1}, w_{2}] 现在我必须合并一个额外的偏置参数,因此我的权重向量变成3 × 1向量?是1 × 3向量吗?我认为应该是1 × 3,因为向量只有1行n列。w0w0w_{0}3×13×13 \times 11×31×31 \times 31×31×31 \times 3 现在假设我将实例化为随机值,该如何绘制决策边界?含义w 0在这里表示什么?是瓦特0 / Ñ ø ř 米(瓦特)的判定区域的离原点的距离是多少?如果是这样,我如何捕获它并使用matplotlib.pyplot或其等效的Matlab在Python中绘制它?[w0,w1,w2][w0,w1,w2][w_{0}, w_{1}, w_{2}]w0w0w_{0}w0/norm(w)w0/norm(w)w_{0}/norm(w) 对于这个问题,我什至会提供一点帮助。

1
随机森林算法步骤背后的动机
我熟悉的用于构建随机森林的方法如下:(来自http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm) 要在森林中建树,我们: 引导一个大小为N的样本,其中N是我们的训练集的大小。使用此引导示例作为此树的训练集。 在树的每个节点上,随机选择M个特征中的m个。在这m个功能中选择最佳以进行拆分。(其中m是我们的随机森林的参数) 使每棵树最大程度地生长-即不修剪。 虽然此算法在程序级别上有意义并且肯定会产生良好的结果,但我不清楚步骤1、2和3背后的理论动机是什么。请问有人可以解释是什么促使有人提出了此过程以及为什么要这样做效果很好? 例如:为什么我们需要执行步骤1?似乎我们没有为减少偏差的通常目的而自举。

1
如何用样条/平滑回归预测新数据
在使用平滑/样条线作为预测模型时,谁能提供关于如何对新数据进行预测的概念性解释?例如,给定一个模型,该模型在R gamboost的mboost包中使用创建,带有p样条曲线,那么如何预测新数据?训练数据使用了什么? 假设自变量x有一个新值,并且我们要预测y。在训练模型时是否使用结或df将用于创建样条曲线的公式应用于该新数据值,然后将来自训练模型的系数应用于输出预测? 这是R的示例,对于新数据mean_radius = 15.99,预测在概念上将输出899.4139吗? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

1
分类器评估:学习曲线与ROC曲线
我想比较2个不同的分类器,以解决使用大型训练数据集的多类文本分类问题。我怀疑我应该使用ROC曲线还是学习曲线来比较这两个分类器。 一方面,学习曲线对于确定训练数据集的大小很有用,因为您可以找到分类器停止学习(并可能降级)的数据集的大小。因此,在这种情况下,最好的分类器可能是精度最高,数据集大小最小的分类器。 另一方面,ROC曲线可让您在灵敏度/特异性之间找到适当权衡的点。在这种情况下,最好的分类器就是最接近左上角的分类器,它是所有FPR中最高的TPR。 我应该同时使用两种评估方法吗?学习曲线较好的方法的ROC曲线是否可能变差,反之亦然?

2
计算神经网络的VC维度
如果我有输入神经元的乙状神经元的固定非递归(DAG)拓扑(固定的节点和边集,但是学习算法可以改变边的权重),它们只能采用作为输入并导致一个输出(输出的实数值,如果它是固定的阈值(远离0),则我们向上舍入为1或向下舍入为-1)。是否有任何快速方法可以计算(或近似)该网络的VC尺寸?nnn{−1,1}n{−1,1}n\{-1,1\}^n 笔记 我在CS.SE上提出了一种更为精确的算法重新制定: 有效地计算或近似神经网络的VC维

2
如何改善神经网络的稳定性?
我在R中使用神经网络来构建具有14个输入和一个输出的NN。我使用相同的输入训练数据和相同的网络体系结构/设置几次构建/训练网络。 生成每个网络之后,我将其用于独立的一组测试数据上以计算一些预测值。我发现,尽管每次构建网络时所有输入(训练数据和测试数据)都保持不变,但预测数据的每次迭代都存在较大差异。 我知道每次在NN中产生的权重都会有所不同,并且没有两个神经网络会是相同的,但是在给定相同数据的情况下,我该如何尝试在每个列车上产生更一致的网络?

4
为什么我们不只是学习超级参数?
我正在实施一篇颇受欢迎的论文“ 解释和利用对抗性示例 ”,在该论文中,它训练了对抗性目标函数 J''(θ)=αJ(θ)+(1 −α)J'(θ)。 它将α视为超参数。α可以是0.1、0.2、0.3等。 不管这份具体论文如何,我都想知道,为什么我们不只是将α纳入参数并学习最佳的α? 这样做的缺点是什么?是因为过度拟合吗?如果是这样,为什么只学习1个参数会导致过拟合呢?


1
关于在训练/有效/测试集上减去平均值的问题
我正在进行数据预处理,然后在数据上构建一个Convonets。 我的问题是:假设我有100个图像的总数据集,我正在为100个图像中的每个图像计算平均值,然后从每个图像中减去它,然后将其拆分为训练集和验证集,我这样做给定测试集上进行处理的步骤,但根据此链接,看来这不是正确的方法:http : //cs231n.github.io/neural-networks-2/#datapre “ 常见的陷阱。进行预处理的重要一点是,任何预处理统计信息(例如数据均值)都必须仅在训练数据上计算,然后应用于验证/测试数据。例如,计算均值并从中减去整个数据集中的每幅图像然后将数据拆分为训练/验证/测试分割将是一个错误,相反,必须仅对训练数据计算平均值,然后从所有分割(训练/验证/测试)中均等地减去均值。 ” 我猜作者在说什么,不要计算平均值并在每个图像中减去它,而是计算整个图像集的平均值(即(image1 + ... + image100)/ 100),然后减去平均值每个图像。 我不太明白有人可以解释吗?并且还可能解释为什么我在做什么错了(如果确实错了)。

2
为什么PCA最大化投影的总方差?
克里斯托弗·毕晓普(Christopher Bishop)在他的《模式识别和机器学习》一书中写道,在将数据投影到与先前选定的组件正交的空间之后,每个连续的主分量将投影在一个维度上的方差最大化。其他人显示类似的证明。 但是,这仅证明了就最大方差而言,每个连续分量都是对一个维度的最佳投影。为什么这意味着,首先选择这样的组件,投影到5个维度的方差最大化?

2
f-measure是准确性的代名词吗?
我了解f量度(基于精度和召回率)是对分类器的准确性的估计。同样,当我们有不平衡的数据集时,f度量优于准确性。我有一个简单的问题(更多是关于使用正确的术语,而不是技术)。我的数据集不平衡,并且在实验中使用了f-measure。我准备写一篇不适合机器学习/数据挖掘会议的论文。因此,在这种情况下,我可以准确地同义地指代f度量。例如,我的f值为0.82,那么我可以说我的分类器达到了82%的准确预测吗?

1
什么时候不使用交叉验证?
当我阅读该站点时,大多数答案都建议交叉验证应在机器学习算法中进行。但是,当我阅读《理解机器学习》一书时,我看到有一种练习,有时最好不要使用交叉验证。我真的很困惑 什么时候对整个数据进行训练算法比交叉验证更好?它是否发生在真实的数据集中? 让是k个假设类。假设你是给米 IID训练例子,你想学习类^ h = ∪ ķ 我= 1 ^ h 我。考虑两种替代方法:H1个,。。。,HķH1,...,HkH_1,...,H_k米mmH= ∪ķ我= 1H一世H=∪i=1kHiH=\cup^k_{i=1}H_i 使用ERM规则在m个示例中学习HHH米mm 划分米实例为训练集的大小的和验证组的大小α 米,对于一些α ∈ (0 ,1 )。然后,使用验证应用模型选择方法。也就是说,第一个训练每个类ħ 我在(1 - α )米使用相对于所述ERM规则训练样例ħ 我,并让ħ 1,... ,ħ ķ(1 - α )米(1−α)m(1−\alpha)mα 米αm\alpha mα ∈ (0 ,1 )α∈(0,1)\alpha\in(0,1)H一世HiH_i(1−α)m(1−α)m(1−\alpha)mHiHiH_ih^1,…,h^kh^1,…,h^k\hat{h}_1,\ldots,\hat{h}_k成为假设。其次,相对于应用该规则ERM到无限类{ ħ 1,... ,ħ ķ }对α 米验证的例子。h^1,…,h^kh^1,…,h^k\hat{h}_1,\ldots,\hat{h}_kαmαm\alpha m 描述第一种方法优于第二种方法的情况,反之亦然。 形象的态度。

1
是Beyer等人的相对对比度定理。论文:“关于高维空间中距离度量的惊人行为”引起误解?
这在提到维数诅咒时经常被引用 (右手公式称为相对对比度) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 定理的结果表明,到给定查询点的最大距离和最小距离之间的差不会像在高维空间中到任何点的最近距离一样快。这使得邻近查询变得毫无意义且不稳定,因为最近邻居和最远邻居之间的区分度很差。 链接 但是,如果实际上尝试计算样本值的相对对比度,则意味着要获取一个包含非常小的值的向量,并计算到零向量的距离,然后对包含更大值的向量进行相同的计算,然后将其与尺寸为3且尺寸为10910910^9倍的尺寸,人们会看到,尽管该比例确实减小了,但变化却很小,以至于与实际使用的尺寸数量无关(或者有人知道有人在工作吗?数据的大小与Graham数的大小相同-我想这是描述纸张的效果与实际相关所需的大小-我认为不是)。 如前所述,该定理经常被引用来支持这样的说法,即基于欧几里德空间来测量接近度在高维空间中是一种较差的策略,作者本人也是这样说的,但是建议的行为实际上并未发生,这使我认为该定理已被误导使用。 示例:具有d尺寸 a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin 对于d = 3 9999999999.0 对于d = 1e8 9999999998.9996738 并使用 d = 1e8的 d = 3 用1e1代替1e5(假设数据已标准化) 99.0 98.999999999989527

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.