Questions tagged «machine-learning»

建立“随经验自动改进的计算机系统”的方法和原理。

8
聚类地理位置坐标(纬线,长线对)
什么是正确的地理位置聚类方法和聚类算法? 我正在使用以下代码对地理位置坐标进行聚类: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() 使用K均值进行地理位置聚类是否正确,因为它使用的是欧几里得距离,而不是Haversine公式作为距离函数?

8
为什么过度拟合对机器学习不利?
逻辑经常指出,通过过度拟合模型,模型的概括能力受到限制,尽管这仅意味着过度拟合会阻止模型在经过一定复杂度后得以改进。无论数据的复杂性如何,过度拟合都会导致模型变得更糟,如果是,为什么会这样呢? 相关:对以上问题的跟踪: “ 何时模型不足? ”

4
神经网络:使用哪个成本函数?
我正在使用TensorFlow主要用于神经网络的实验。尽管现在我已经做了大量的实验(XOR问题,MNIST,一些回归的东西……),但是我为特定的问题选择“正确的”成本函数很困难,因为总的来说我可以被认为是一个初学者。 在上TensorFlow之前,我自己使用Python和NumPy编写了一些完全连接的MLP和一些递归网络,但大多数情况下,我遇到了一个简单的平方误差和简单的梯度设计就足够了的问题。 但是,由于TensorFlow本身提供了很多成本函数以及构建自定义成本函数的功能,所以我想知道是否存在某种专门针对神经网络上的成本函数的教程?(我已经完成了一半的TensorFlow官方教程,但它们并没有真正解释为什么特定成本函数或学习者用于特定问题-至少对于初学者而言) 举一些例子: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) 我猜想它在两个输入上都应用了softmax函数,以便一个向量的总和等于1。但是对数与logits的交叉熵到底是什么呢?我以为它会汇总值并计算交叉熵...那么一些度量标准度量值呢?如果我对输出进行归一化,求和并求平方误差,这是否会完全相同?此外,为什么将其用于MNIST(甚至更困难的问题)?当我想分类为10个甚至1000个类时,汇总这些值是否会完全破坏有关输出实际上是哪个类的任何信息? cost = tf.nn.l2_loss(vector) 这个是来做什么的?我以为l2损失几乎是平方误差,但TensorFlow的API告诉它输入只是一个张量。根本不知道这个主意吗? 此外,我经常看到这种用于交叉熵的方法: cross_entropy = -tf.reduce_sum(y_train * tf.log(y_output)) ...但是为什么要使用它?数学上的交叉熵损失不是: -1/n * sum(y_train * log(y_output) + (1 - y_train) * log(1 - y_output)) 哪里是(1 - y_train) * log(1 - y_output)在最TensorFlow例子的一部分?它不丢失吗? 答:我知道这个问题是很开放的,但是我不希望得到详细列出每个问题/成本函数的10页。我只需要简短总结一下何时使用哪个成本函数(一般而言还是在TensorFlow中,对我来说并不重要),以及有关此主题的一些解释。和/或一些初学者的资源;)

9
贝叶斯网络在任何方面都胜过神经网络吗?
在计算机视觉任务中,神经网络获得了最高的结果(请参见MNIST,ILSVRC,Kaggle Galaxy Challenge)。它们似乎比“计算机视觉”中的所有其他方法都要好。但是,还有其他任务: Kaggle分子活性挑战 回归:Kaggle Rain预测,也是第二名 握住并举起第二名,也获得第三名 -从EEG录音中识别手部动作 我对ASR(自动语音识别)和机器翻译不太确定,但我想我还听说过(递归)神经网络(开始)胜过其他方法。 我目前正在学习贝叶斯网络,我想知道在哪些情况下通常会使用这些模型。所以我的问题是: 在贝叶斯网络或至少非常相似的模型方面,是否存在任何挑战/(竞争)竞争? (附注:我也看到了决策树,2,3,4,5,6,7胜在最近的几Kaggle挑战)

5
我应该选择“平衡”数据集还是“代表性”数据集?
我的“机器学习”任务是将良性Internet流量与恶意流量分开。在现实世界中,大多数(例如90%或更多)的Internet流量都是良性的。因此,我觉得我也应该选择类似的数据设置来训练我的模型。但是我碰到了一份或两篇研究论文(在我的工作领域),他们使用“类平衡”数据方法来训练模型,这意味着良性和恶意流量实例的数量相等。 通常,如果我正在构建机器学习模型,我应该选择一个代表现实世界问题的数据集,还是一个更适合于构建模型的平衡数据集(因为某些分类器在类不平衡方面表现不佳,或者由于其他原因(我不知道)? 有人可以揭示更多的光线优点和缺点都的选择,以及如何决定去哪个选哪个?


4
向时间序列模型LSTM添加功能
一直在阅读有关LSTM及其在时间序列上的用法的文章,虽然有趣但同时又很困难。我一直难以理解的一件事是向时间序列功能列表中添加其他功能的方法。假设您的数据集是这样的: t-3,t-2,t-1,输出 现在说您知道您有一个确实会影响输出的功能,但不一定是时间序列功能,比如说外面的天气。您可以添加一下这些内容吗,LSTM就能区分出时间序列方面和什么方面?

10
为什么将机器学习模型称为黑匣子?
我在阅读这篇博客文章,标题为:《金融世界想要打开AI的黑匣子》,作者反复将ML模型称为“黑匣子”。 提到ML模型时,在许多地方都使用了类似的术语。为什么会这样呢? 就像机器学习工程师不知道神经网络内部发生了什么一样。ML工程师会选择每个层,知道要使用什么激活功能,该层的类型是什么,错误如何反向传播等。

4
为什么在所有训练数据中,最小批次大小比单个“批次”更好?
我经常读到,在使用深度学习模型的情况下,通常的做法是在几个训练时期内应用小批量(通常是32/64的小批量)。我无法真正理解背后的原因。 除非我没有记错,否则批大小是模型在训练迭代期间看到的训练实例的数量;当模型已经看到每个训练实例时,纪元就轮到了。如果是这样,我看不到对训练实例的几乎无关紧要的子集进行多次迭代的优势,而与通过将每个回合中所有可用的训练实例暴露给模型来应用“最大批次”相反(当然,假设足够记忆)。这种方法的优势是什么?

10
机器学习算法可以预测运动成绩或比赛吗?
我有各种各样的NFL数据集,我认为它们可能是一个很好的附带项目,但是我还没有对它们做任何事情。 来到这个网站让我想到了机器学习算法,我想知道它们在预测足球比赛甚至下一场比赛的结果方面有多好。 在我看来,可能会发现一些趋势-在第三局和第一局,理论上有强大后卫的球队应该有在这种情况下控球的趋势。 得分可能更难预测,但获胜的团队可能更难预测。 我的问题是,这些是否是机器学习算法的好问题。可能有一千人曾经尝试过,但是体育的性质使它成为一个不可靠的话题。

11
C(或C ++)中的数据科学
我是R语言程序员。我也是一群被认为是数据科学家,但来自CS以外的学科的人。 在我作为数据科学家的角色中,这表现得很好,但是,由于我的职业生涯开始R并且仅对其他脚本/网络语言有基本了解,所以我在两个关键领域感到不足: 缺乏扎实的编程理论知识。 缺乏技术人员在像更快和更广泛使用的语言有竞争力的水平的C,C++并且Java,它可以被利用以提高管道和大数据计算的速度以及创建其中可以更容易地发展成快速DS /数据产品后端脚本或独立应用程序。 解决方案当然很简单-继续学习编程,这是我通过注册某些类(当前为C编程)所做的事情。 但是,既然我现在开始解决上述问题#1和#2,我就CC++问自己“ 像数据科学这样的语言以及对于数据科学来说,这些语言的可行性如何? ”。 例如,我可以非常快速地移动数据并与用户进行很好的交互,但是高级回归,机器学习,文本挖掘和其他更高级的统计操作呢? 所以。可以C完成这项工作-哪些工具可用于高级统计,ML,AI和其他数据科学领域?还是我必须放弃C通过调用R脚本或其他语言进行编程而获得的大多数效率? 迄今为止,用C,我发现最好的资源是一个叫库鲨鱼,这使C/ C++使用支持向量机,线性回归(未非线性等先进的回归就像多项概率等)以及其他的短名单的能力(很棒)统计功能。

3
何时使用什么-机器学习[关闭]
最近,在UPC /巴塞罗那的Oriol Pujol教授的机器学习课程中,他描述了用于各种机器学习相关任务的最常见算法,原理和概念。在这里,我与您分享它们并询问您: 是否有全面的框架将任务与与不同类型的机器学习相关问题相关的方法或方法相匹配? 如何学习简单的高斯? 概率,随机变量,分布;估计,收敛和渐近,置信区间。 如何学习混合高斯(MoG)?可能性,期望最大化(EM);概括,模型选择,交叉验证;k均值,隐藏马尔可夫模型(HMM) 我如何学习密度?参数与非参数估计,Sobolev和其他功能空间;ĺ2错误; 内核密度估计(KDE),最佳内核,KDE理论 如何预测连续变量(回归)?线性回归,正则化,岭回归和LASSO;局部线性回归 条件密度估计。 我如何预测离散变量(分类)?贝叶斯分类器,朴素贝叶斯,生成与区分;感知器,重量衰减,线性支持向量机;最近邻分类器和理论 我应该使用哪个损失函数?最大似然估计理论;l -2估计;贝叶斯估计 极小极大与决策理论,贝叶斯主义与频繁主义 我应该使用哪种型号?AIC和BIC;Vapnik-Chervonenskis理论;交叉验证理论;自举 大概近似正确(PAC)理论;霍夫廷定界 如何学习更高级的(组合)模型?整合学习理论;促进 套袋 堆放 如何学习更高级的(非线性)模型?广义线性模型,逻辑回归;Kolmogorov定理,广义加性模型;内核化,再现内核Hilbert空间,非线性SVM,高斯过程回归 如何学习更出色的(组合)模型?递归模型,决策树,层次聚类;神经网络,反向传播,深度信念网络;图形模型,HMM混合,条件随机字段,最大边距Markov网络;对数线性模型; 文法 如何减少或关联功能?特征选择与降维,特征选择的包装方法;因果性与相关性,偏相关性,贝叶斯网络结构学习 如何创建新功能?主成分分析(PCA),独立成分分析(ICA),多维缩放,流形学习,监督降维,度量学习 如何减少或关联数据?集群,双集群,约束集群;关联规则和市场篮子分析;排名/常规回归 链接分析;关系数据 如何处理时间序列?ARMA;卡尔曼滤波器和统计空间模型,粒子滤波器;功能数据分析;变更点检测;时间序列的交叉验证 如何处理不理想的数据?协变量移位 阶级失衡;数据丢失,采样数据不规则,测量误差;异常检测,鲁棒性 如何优化参数?无约束与约束/凸优化,无导数方法,一阶和二阶方法,后拟合;自然梯度 边界优化和EM 如何优化线性函数?计算线性代数,用于回归的矩阵求逆,用于降维的奇异值分解(SVD) 如何优化约束?凸性,拉格朗日乘数,Karush-Kuhn-Tucker条件,内点方法,用于SVM的SMO算法 如何评估深度嵌套的总和?精确的图形模型推论,总和的变化范围,近似的图形模型推论,期望传播 如何评估大笔款项和搜寻?广义N体问题(GNP),分层数据结构,最近邻居搜索,快速多重方法;蒙特卡洛积分,马尔可夫链蒙特卡洛,蒙特卡洛SVD 我该如何处理更大的问题?并行/分布式EM,并行/分布式GNP; 随机次梯度方法,在线学习 如何在现实世界中应用所有这些?机器学习部分的概述,在用于每个任务的方法,先验知识和假设之间进行选择;探索性数据分析和信息可视化;评估和解释,使用置信区间和假设检验,ROC曲线;机器学习的问题在哪里


2
如何解释XGBoost重要性的输出?
我运行了一个xgboost模型。我不完全知道如何解释的输出xgb.importance。 增益,覆盖率和频率的含义是什么,我们如何解释它们? 另外,Split,RealCover和RealCover%是什么意思?我在这里有一些额外的参数 还有其他参数可以告诉我有关功能重要性的更多信息吗? 从R文档中,我了解到“增益”类似于“信息增益”,“频率”是在所有树中使用某个功能的次数。我不知道什么是Cover。 我运行了链接中给出的示例代码(并且还尝试对我正在处理的问题进行相同的操作),但是在那里给出的拆分定义与我计算出的数字不匹配。 importance_matrix 输出: Feature Gain Cover Frequence 1: xxx 2.276101e-01 0.0618490331 1.913283e-02 2: xxxx 2.047495e-01 0.1337406946 1.373710e-01 3: xxxx 1.239551e-01 0.1032614896 1.319798e-01 4: xxxx 6.269780e-02 0.0431682707 1.098646e-01 5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02 214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05 215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05 216: xxxxxxxxxxxx 3.899363e-06 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.