Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


1
t-SNE中的轴是什么意思?
我目前正在尝试围绕t-SNE数学学习。不幸的是,还有一个我不能令人满意地回答的问题:t-SNE图中轴的实际含义是什么?如果要在此主题上进行演示或将其包含在任何出版物中:我如何适当地标记轴? PS:我读了 Reddit问题,但是那里给出的答案(例如“取决于解释和领域知识”)并不能真正帮助我理解这一点。

1
反向传播的矩阵形式与批量归一化
批归一化已被认为可在深度神经网络中显着提高性能。互联网上的大量资料显示了如何在逐个激活的基础上实施它。我已经使用矩阵代数实现了backprop,并且考虑到我正在使用高级语言(同时依赖Rcpp(最终是GPU的)密集矩阵乘法),将所有内容剔除并采用for-loops可能会使我的代码变慢除了遭受巨大的痛苦之外 批处理归一化函数为 其中b(xp)=γ(xp−μxp)σ−1xp+βb(xp)=γ(xp−μxp)σxp−1+β b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta pxpxpx_p是激活之前的个节点ppp βγγ\gamma和是标量参数ββ\beta σ X p X pμxpμxp\mu_{x_p}和是均值和SD的。(请注意,通常使用方差的平方根加上一个模糊系数-假设非零元素为紧凑起见)σxpσxp\sigma_{x_p}xpxpx_p 以矩阵形式,整个层的批量归一化将为 其中b(X)=(γ⊗1p)⊙(X−μX)⊙σ−1X+(β⊗1p)b(X)=(γ⊗1p)⊙(X−μX)⊙σX−1+(β⊗1p) b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right) XX\mathbf{X}是N×pN×pN\times p 1N1N\mathbf{1}_N是1的列向量 β pγγ\gamma和现在是每层归一化参数的行向量ββ\betappp σ X Ñ × p ÑμXμX\mu_{\mathbf{X}}和是矩阵,其中每一列都是列均值和标准差的向量σXσX\sigma_{\mathbf{X}}N×pN×pN \times pNNN ⊙⊗⊗\otimes是Kronecker产品,是elementwise(Hadamard)产品⊙⊙\odot ,这是一个非常简单的没有批次归一化且连续结果的单层神经网络 y=a(XΓ1)Γ2+ϵy=a(XΓ1)Γ2+ϵ y = a\left(\mathbf{X\Gamma}_1\right)\Gamma_2 + …

5
线性回归过时了吗?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 我目前正在参加线性回归课程,但我无法撼动自己的感觉,即我正在学习的内容不再与现代统计学或机器学习相关。当如今有这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花那么多时间进行简单或多元线性回归的推理?为什么不代之以关于更灵活,更现代的工具(如使用支持向量机或高斯过程进行回归)的推理呢?尽管比在空间中找到一架超飞机要复杂得多,但这不会为学生提供更好的背景来解决现代问题吗?

3
PCA优化是否凸出?
主成分分析(PCA)的目标函数是使L2范数中的重构误差最小化(请参阅此处的 2.12节。另一种观点试图使投影的方差最大化。我们在此处也有一篇很不错的文章:PCA的目标函数是什么?)。 我的问题是PCA优化凸出吗?(我在这里找到了一些讨论,但希望有人可以在这里提供有关CV的很好的证明)。

2
Kaggle比赛是不是偶然赢了?
Kaggle竞赛根据坚持下来的测试集确定最终排名。 保留的测试集是一个样本;它可能不代表正在建模的总体。由于每个提交都像一个假设,因此赢得竞争的算法可能完全有可能比其他方法更好地匹配测试集。换句话说,如果选择了不同的测试集并重复了比赛,排名会保持不变吗? 对于赞助公司而言,这并不重要(可能前20名提交者会改善他们的基准)。尽管具有讽刺意味的是,他们最终可能会使用比其他前五名更糟糕的第一名的模型。但是,对于竞争参与者来说,Kaggle似乎最终是一种机会游戏-不需要偶然找到正确的解决方案,而是需要偶然找到与测试集匹配的解决方案! 是否可以改变比赛方式,以便所有无法在统计上区分的顶级球队获胜?或者,在这一组中,最简约或计算便宜的模型能否获胜?

3
当我们仅能减少功能数量时,为什么使用PCA来加快学习算法?
在机器学习课程中,我了解到PCA(主成分分析)的一种常见用法是加快其他机器学习算法的速度。例如,假设您正在训练逻辑回归模型。如果您有一个从1到n 的训练集,结果证明向量x的维数很大(比如说维数),可以使用PCA获得较小的维度(比方说k个维度)特征向量z。然后,您可以在的训练集上从1到n 训练逻辑回归模型。训练此模型将更快,因为特征向量的维数较小。(z (i ),y (i ))(x(i),y(i))(x(i),y(i))(x^{(i)},y^{(i)})(z(i),y(i))(z(i),y(i))(z^{(i)},y^{(i)}) 但是,我不明白为什么不能仅通过随机选择k个特征并消除其余特征来将特征向量的维数减小为k个维。 z向量是特征向量的线性组合。由于z向量限制在k维表面上,因此您可以将ak个消除的特征值写为k个剩余特征值的线性函数,因此所有z都可以通过k个特征的线性组合来形成。因此,在具有消除特征的训练集上训练的模型是否不应该与在其维度被PCA缩减的训练集上训练的模型具有相同的功效?它是否仅取决于模型的类型以及是否取决于某种线性组合?

2
什么是规则和正则化?
在学习机器学习时,我越来越多地听到这些话。实际上,有人在方程正则性方面获得了菲尔兹奖。因此,我想这是一个从统计物理/数学到机器学习的术语。当然,我问的很多人都无法直观地解释它。 我知道诸如dropout之类的方法有助于正则化(=>他们说它减少了过度拟合,但是我真的不明白这是什么:如果仅减少过度拟合,为什么不只称其为anti-overfit方法=>我想的更多,因此这个问题)。 如果您能解释一下,我将非常感激(我想天真的ML社区也将如此!) 您如何定义规律性?什么是规律性? 正则化是确保规律性的一种方法吗?即捕获规律? 为什么像dropout这样的集合方法,归一化方法都声称要进行正则化? 为什么这些(正则性/正则化)出现在机器学习中? 非常感谢你的帮助。


4
如何(系统地)使用梯度下降作为优化器来调整学习率?
ML / DL领域的局外人;开始了基于Tensorflow的Udacity深度学习课程;做作业3的问题4; 尝试使用以下配置调整学习率: 批次大小128 步骤数:足以填满2个纪元 隐藏层的大小:1024、305、75 重量初始化:使用std正常截断。sqrt(2 / n)的偏差,其中n是上一层的大小 失学保持机率:0.75 正则化:不适用 学习率算法:指数衰减 玩弄学习率参数;在大多数情况下,它们似乎没有作用;在这里编码 ; 结果: Accuracy learning_rate decay_steps decay_rate staircase 93.7 .1 3000 .96 True 94.0 .3 3000 .86 False 94.0 .3 3000 .96 False 94.0 .3 3000 .96 True 94.0 .5 3000 .96 True 我应该如何系统地调整学习率? 学习率与步数有何关系?

2
Logistic回归何时合适?
我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。 根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。 但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。 因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?

2
将机器学习问题转化为回归框架
假设我有一组解释变量,其中,,还有二进制结果相关变量的向量。因此,仅在最后时间观察到,而在任何更早的时间观察不到完全一般的情况下是有多个为为每个单元在每个时间,但让我们集中在壳体为简洁。 i = 1 。。。N t =1 。。。T Y i T Y T X i j t j = 1 ... K i t K = 1XitXitX_{it}i=1...Ni=1...Ni = 1 ... Nt=1...Tt=1...Tt = 1 ... TYiTYiTY_{iT}YYYTTTXijtXijtX_{ijt}j=1...Kj=1...Kj=1...KiiitttK=1K=1K=1 具有时间相关的解释变量的“不平衡”对的应用例如(每日股票价格,季度股息),(每日天气报告,年度飓风)或(每次移动后的棋盘位置特征,赢/输结果)游戏结束)。(X,Y)(X,Y)(X, Y) 我对(可能非线性)回归系数做预测的,知道在训练数据中,给定的早期观察为它会导致最终结果βtβt\beta_t X 我吨吨&lt; Ť ÿ 我ŤYitYitY_{it}XitXitX_{it}t&lt;Tt&lt;Tt < TYiTYiTY_{iT} Y^it=f(∑tk=1Xikβk),t=1...TY^it=f(∑k=1tXikβk),t=1...T\hat{Y}_{it} = f(\sum_{k=1}^{t} X_{ik} \beta_k), …

3
我可以使用哪种算法查找事件之间的相关性?
我是机器学习的新手,因此我正在尝试查找一些文献,但是我什至不确定要做什么。我的数据具有以下形式: User A performs Action P User B performs Action Q User C performs Action R ... User C performs Action X User A performs Action Y User B performs Action Z ... 每个动作具有某些特征(日期,时间,客户等)的地方。大约有300个用户,我们有大约20,000个操作。 问题: 我想找出用户操作之间是否存在因果关系。例如,“每次用户E执行动作T,两天后用户G执行动作V”。但是在这两者之间,可能会有许多其他用户执行许多其他操作,并且可能找不到关联。有些用户可能是相关的,而其他用户则是完全独立的。这是机器学习能够为我找到的东西吗?是否有特定的算法或一组算法可以帮助我? 我一直在阅读关联分析和Apriori算法,但我认为这不能满足我的需要,因为它似乎需要已知的,定界的数据集作为输入,而我似乎只有一堆看似随机的用户动作。关于看什么的任何建议将不胜感激!

5
自动化机器学习是一个梦想吗?
当我发现机器学习时,我看到了不同的有趣技术,例如: 使用以下技术自动调整算法grid search: 打通的相同的“类型”的不同算法的组合更准确的结果,那就是boosting, 通过对不同算法的组合得到更准确的结果(但不是同一个类型的算法),这就是stacking, 可能还有更多我仍要发现... 我的问题是:所有这些部分。但是,是否有可能将它们组合在一起,以形成一种算法,该算法通过充分利用所有技术中的优势来将输入的清洁数据作为输入并输出良好的结果?(当然,专业数据科学家的工作效率可能会降低,但他会比我更好!)如果是,您是否有示例代码,或者您知道可以做到这一点的框架吗? 编辑:经过一些答案后,似乎必须进行一些缩小。让我们举个例子,我们有一列包含分类数据,我们称之为它,y并且我们希望从X虚拟数据或实际数值数据(高度,温度)的数值数据进行预测。我们假设以前已经清洁过。是否存在可以获取此类数据并输出预测的现有算法?(通过测试多种算法,对其进行调整,增强等),如果是,它的计算效率是否很高(如果与正常算法进行比较,是否可以在合理的时间内完成计算),您是否有代码示例?

1
人们为什么不将更深的RBF或RBF与MLP结合使用?
因此,在查看径向基函数神经网络时,我注意到人们只建议使用1个隐藏层,而对于多层感知器神经网络,则认为多层更好。 鉴于可以用反向传播的版本训练RBF网络,是否有任何原因为什么较深的RBF网络不起作用,或者RBF层不能用作深度MLP网络中的倒数第二层或第一层?(我一直在考虑倒数第二层,因此基本上可以对之前的MLP层学习的功能进行训练)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.