Questions tagged «algorithms»

算法是一组将产生计算结果的一个或多个计算。所有统计方法都是算法。算法可以很简单(例如计算百分比),也可以非常复杂,并且需要计算机才能获得快速而准确的结果。

5
什么时候模型不足?
逻辑经常指出,通过对模型进行拟合,可以增强其概括能力。就是说,显然,在某个时候,模型的拟合不足会导致模型变得更糟,无论数据的复杂性如何。 您怎么知道您的模型何时达到了适当的平衡,并且不符合其要建模的数据? 注意:这是我的问题“ 为什么过度拟合不好? ” 的后续措施。

3
何时使用什么-机器学习[关闭]
最近,在UPC /巴塞罗那的Oriol Pujol教授的机器学习课程中,他描述了用于各种机器学习相关任务的最常见算法,原理和概念。在这里,我与您分享它们并询问您: 是否有全面的框架将任务与与不同类型的机器学习相关问题相关的方法或方法相匹配? 如何学习简单的高斯? 概率,随机变量,分布;估计,收敛和渐近,置信区间。 如何学习混合高斯(MoG)?可能性,期望最大化(EM);概括,模型选择,交叉验证;k均值,隐藏马尔可夫模型(HMM) 我如何学习密度?参数与非参数估计,Sobolev和其他功能空间;ĺ2错误; 内核密度估计(KDE),最佳内核,KDE理论 如何预测连续变量(回归)?线性回归,正则化,岭回归和LASSO;局部线性回归 条件密度估计。 我如何预测离散变量(分类)?贝叶斯分类器,朴素贝叶斯,生成与区分;感知器,重量衰减,线性支持向量机;最近邻分类器和理论 我应该使用哪个损失函数?最大似然估计理论;l -2估计;贝叶斯估计 极小极大与决策理论,贝叶斯主义与频繁主义 我应该使用哪种型号?AIC和BIC;Vapnik-Chervonenskis理论;交叉验证理论;自举 大概近似正确(PAC)理论;霍夫廷定界 如何学习更高级的(组合)模型?整合学习理论;促进 套袋 堆放 如何学习更高级的(非线性)模型?广义线性模型,逻辑回归;Kolmogorov定理,广义加性模型;内核化,再现内核Hilbert空间,非线性SVM,高斯过程回归 如何学习更出色的(组合)模型?递归模型,决策树,层次聚类;神经网络,反向传播,深度信念网络;图形模型,HMM混合,条件随机字段,最大边距Markov网络;对数线性模型; 文法 如何减少或关联功能?特征选择与降维,特征选择的包装方法;因果性与相关性,偏相关性,贝叶斯网络结构学习 如何创建新功能?主成分分析(PCA),独立成分分析(ICA),多维缩放,流形学习,监督降维,度量学习 如何减少或关联数据?集群,双集群,约束集群;关联规则和市场篮子分析;排名/常规回归 链接分析;关系数据 如何处理时间序列?ARMA;卡尔曼滤波器和统计空间模型,粒子滤波器;功能数据分析;变更点检测;时间序列的交叉验证 如何处理不理想的数据?协变量移位 阶级失衡;数据丢失,采样数据不规则,测量误差;异常检测,鲁棒性 如何优化参数?无约束与约束/凸优化,无导数方法,一阶和二阶方法,后拟合;自然梯度 边界优化和EM 如何优化线性函数?计算线性代数,用于回归的矩阵求逆,用于降维的奇异值分解(SVD) 如何优化约束?凸性,拉格朗日乘数,Karush-Kuhn-Tucker条件,内点方法,用于SVM的SMO算法 如何评估深度嵌套的总和?精确的图形模型推论,总和的变化范围,近似的图形模型推论,期望传播 如何评估大笔款项和搜寻?广义N体问题(GNP),分层数据结构,最近邻居搜索,快速多重方法;蒙特卡洛积分,马尔可夫链蒙特卡洛,蒙特卡洛SVD 我该如何处理更大的问题?并行/分布式EM,并行/分布式GNP; 随机次梯度方法,在线学习 如何在现实世界中应用所有这些?机器学习部分的概述,在用于每个任务的方法,先验知识和假设之间进行选择;探索性数据分析和信息可视化;评估和解释,使用置信区间和假设检验,ROC曲线;机器学习的问题在哪里



3
如何扩展算法开发?
在进行探索性数据分析和开发算法的过程中,我发现大部分时间都花在可视化,编写代码,在小型数据集上运行,重复的周期中。我拥有的数据往往是计算机视觉/传感器融合类型的东西,而算法则是视觉密集型的(例如,对象检测和跟踪等),而现有算法在这种情况下不起作用。我发现这需要很多次迭代(例如,拨入算法的类型或调整算法中的参数或获得正确的可视化效果),而且即使在较小的数据集上,运行时间也很长,因此总共需要一段时间。 如何加速算法开发本身并使其更具可扩展性? 一些特定的挑战: 如何减少迭代次数?(尤其是在不尝试不同版本并检查其行为的情况下,似乎很难预见哪种算法,更不用说算法的细节了) 在开发过程中如何在更大的数据集上运行?(通常是从小型数据集到大型数据集,是当看到一堆新行为和新问题时) 如何更快地调整算法参数? 如何将机器学习类型工具应用于算法开发本身?(例如,不要手工编写算法,而是编写一些简单的构建基块并以从问题中学习的方式将它们组合起来,等等)
18 algorithms 

1
文本聚类算法
我有一个问题,就是将大量句子按其含义分组。当您有很多句子并想按其含义对它们进行分组时,这类似于一个问题。 建议使用什么算法来做到这一点?我不知道簇的数量(随着更多数据的到来,簇也可以改变),通常用什么特征来表示每个句子? 我现在正在尝试使用最简单的功能,将单词列表和句子之间的距离定义为: (A和B是句子A和B中的相应单词集) 真的有道理吗? 我正在尝试将scikit库中的Mean-Shift算法应用于此距离,因为它不需要预先提供多个簇。 如果有人会建议解决问题的更好方法/方法,将不胜感激,因为我还是这个话题的新手。

4
基于相似度分数的聚类
假设我们有一组元素E和两个元素ei,ej∈E之间的相似度函数(而不是距离)sim(ei,ej)。 我们如何使用sim(有效地)将E的元素聚类? ķ -means,例如,需要在给定ķ,雨棚聚类需要两个阈值。如果我们不想要这样的预定义参数怎么办? 注意,sim不一定是度量(即三角形不等式可能成立,也可能不成立)。此外,簇是否不相交(E的分区)也没关系。

2
Mahout中基于项目和基于用户的推荐差异
我想知道mahout基于用户的推荐与基于项目的推荐之间到底有何不同。 它定义了 基于用户:通过查找相似用户来推荐项目。由于用户的动态特性,这通常很难扩展。 基于项目:计算项目之间的相似度并提出建议。项目通常不会有太大变化,因此通常可以离线进行计算。 但是,尽管有两种建议可用,但据我了解,这两种建议都将采用某种数据模型(例如1,2或1,2,.5作为item1,item2,value或user1,user2,value,其中value不是必选),并将所有计算作为我们选择的相似性度量和推荐器内置函数,并且我们可以在同一数据上运行基于用户/项目的推荐(这是正确的假设??)。 因此,我想知道这两种算法在各个方面到底有何不同。


2
计算由不相交分类器组成的分类器的ROC曲线的高效算法
假设我有不相交的分类器C_1 ... C_n,因为在同一个输入(例如决策树中的节点)上,没有两个返回真。我想建立一个新的分类器,将它们的某些子集结合起来(例如,我要决定在决策树的哪些叶子上给出肯定的分类)。当然,这样做会在敏感性和阳性预测值之间进行权衡。因此,我希望看到ROC曲线。原则上,我可以通过枚举分类器的所有子集并计算所得的灵敏度和PPV来做到这一点。但是,如果n大于30左右,这将是非常昂贵的。另一方面,几乎可以肯定,有些组合不是帕累托最优的,因此可能会有一些分支定界策略或类似的东西, 我想就这种方法是否可能取得成果,是否有任何工作或您是否有关于在上述情况下有效计算ROC曲线的想法提出建议。
13 algorithms 

1
全局压缩方法和通用压缩方法有什么区别?
我知道压缩方法可以分为两个主要组: 全球 本地 第一组工作与所处理的数据无关,也就是说,它们不依赖于数据的任何特征,因此不需要在数据集的任何部分上执行任何预处理(在压缩本身之前)。另一方面,局部方法分析数据,提取通常可以提高压缩率的信息。 在阅读其中一些方法时,我注意到一元方法不是通用方法,这使我感到惊讶,因为我认为“全局性”和“通用性”是同一件事。一元方法不依赖数据的特性来产生其编码(即,它是一种全局方法),因此它应该是全局/通用的,不是吗? 我的主要问题: 通用方法和全局方法有什么区别? 这些分类不是同义词吗?

1
如何确定字符序列是英文单词还是杂音
您将尝试从单词列表中提取什么样的功能以供将来预测,是现有单词还是仅是字符混乱? 我在那儿找到了对任务的描述。 您必须编写一个程序来回答给定单词是否为英语。这很容易-您只需要在词典中查找单词-但有一个重要限制:您的程序不得大于64 KiB。 因此,我认为可以使用逻辑回归来解决问题。我没有大量的数据挖掘经验,但是这项任务对我来说很有趣。 谢谢。

1
R中MLE的Fisher评分v / s坐标下降
R基函数glm()将Fisher评分用于MLE,而glmnet似乎使用坐标下降法来求解相同的方程。坐标下降比费舍尔计分法更省时,因为费舍尔计分法除了计算某些其他矩阵运算外,还计算二阶导数矩阵。这使得执行成本很高,而坐标下降可以在O(np)时间内完成相同的任务。 为什么R基函数使用Fisher评分?与其他优化方法相比,此方法是否有优势?协调血统和费舍尔评分如何比较?我在这个领域比较陌生,因此任何帮助或资源都会有所帮助。

2
用稀疏数据解方程组
我正在尝试求解一组具有40个自变量(x1,...,x40)和一个因变量(y)的方程式。方程的总数(行数)为〜300,我想求解40个系数的集合,该系数最小化y和预测值之间的总平方误差。 我的问题是矩阵非常稀疏,我不知道用稀疏数据解方程组的最佳方法。数据集的示例如下所示: y x1 x2 x3 x4 x5 x6 ... x40 87169 14 0 1 0 0 2 ... 0 46449 0 0 4 0 1 4 ... 12 846449 0 0 0 0 0 3 ... 0 .... 我目前正在使用一种遗传算法来解决此问题,得出的结果大约是观察到的和预期的两个差异。 任何人都可以提出能够解决稀疏数据方程组的不同方法或技术吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.