Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


1
统计用于机器学习,论文开始吗?
我具有计算机编程和基本数论方面的背景,但没有进行过实际的统计学培训,并且最近“发现”了一系列技术的惊人领域实际上是一个统计领域。看来矩阵分解,矩阵完成,高维张量,嵌入,密度估计,贝叶斯推断,马尔可夫分区,特征向量计算,PageRank都是高度统计技术,并且使用此类事物的机器学习算法会使用大量统计数据。 我的目标是能够阅读讨论此类问题的论文,并实现或创建算法,同时了解所使用的符号,“证明”和统计参数。我猜最难的是遵循涉及矩阵的所有证明。 哪些基本论文可以帮助我入门?还是一本值得练习的好教科书? 具体来说,我想完全理解的一些文章是: 通过凸优化实现精确的矩阵完成,Candes,Reckt,2008年 快速柯西变换和快速鲁棒线性回归,克拉克森等,2013年 支持向量机的随机投影,Paul等,2013 使用深度密度模型进行高维概率估计,Rippel,Adams,2013年 获取低秩矩阵完成的最小化误差估计和通用明智误差界,Király,Theran,2013年

1
是否可以通过随机梯度下降从P(X)的非iid样本和P(Y | X)的iid样本中训练P(Y | X)的模型?
当在某些数据集上通过随机梯度下降训练参数化模型(例如,使似然性最大化)时,通常假设从训练数据分布中抽取训练样本。因此,如果目标是建模联合分布,则应从该分布中得出每个训练样本。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 如果目标是为条件分布P(Y | X)建模P(Y|X)P(Y|X)P(Y|X),那么iid需求将如何变化(如果有的话)? 我们还必须从联合分布中抽取每个样本(xi,yi)(xi,yi)(x_i,y_i) iid吗? 我们应该从P(X)绘制xixix_i iid ,然后从P(Y | X)绘制y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 我们可以从P(X)中得出xixix_i不是iid (例如随时间相关),然后从P(Y | X)中得出y_i iid 吗?P(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 您能否评论这三种随机梯度下降方法的有效性?(或在必要时帮助我重新说明问题。) 如果可能的话,我想做#3。我的应用程序是强化学习,其中我使用参数化条件模型作为控制策略。状态序列xixix_i是高度相关的,但是从状态为条件的随机策略中,对操作yiyiy_i进行了iid采样。结果样本(xi,yi)(xi,yi)(x_i,y_i)(或它们的子集)用于训练策略。(换句话说,想象在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随着时间而相互关联,动作也将根据状态独立地生成。)这是有点类似的情况提出。 我发现了一篇论文,Ryabko,2006年,“ 有条件独立数据的模式识别 ”,乍一看似乎很有意义。然而,那里的情况是从我需要什么,在这里逆转(标签/分类/动作)可以被延伸不IID,和(对象/模式/状态)从绘制IID。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新: Ryabko论文中提到的两篇论文(此处和此处)似乎与此处相关。他们假设来自任意过程(例如,不是iid,可能是非平稳的)。他们表明,在这种情况下,最近邻估计和核估计是一致的。但是我更感兴趣的是在这种情况下基于随机梯度下降的估计是否有效。xixix_i

3
使用最少的内存来训练数据的最有效方法是什么?
这是我的训练数据:200,000个示例x 10,000个功能。所以我的训练数据矩阵是-200,000 x 10,000。 当我为每个示例生成功能时,我设法将每个数据集一个接一个地保存(一个示例一个接一个),从而将其保存到一个平面文件中而没有内存问题。 但是,现在当我使用Milk,SVM light或任何其他机器学习算法时,一切都会尝试将整个训练数据加载到内存中,而不是一一训练。但是,我只有8 GB的RAM,因此无法进行这种方式。 您是否知道我可以逐个训练一个数据集的算法?也就是说,在训练时,我随时都可以将一个数据集加载到内存中。

2
正则化
执行正则化的方法有很多- 例如基于,L 1和L 2范数的正则化。根据Friedman Hastie和Tibsharani的说法,最佳正则化器取决于问题:即真正目标函数的性质,所使用的特定基础,信噪比和样本大小。大号0L0L_0大号1个L1L_1大号2L2L_2 是否有任何比较方法和各种正则化方法性能的实证研究?

3
如何使用统计显着性比较两个不同模型的准确性
我正在研究时间序列预测。我有两个数据集和。我有三个预测模型:。使用数据集样本训练所有这些模型,并使用数据集的样本测量其性能。假设性能指标是MSE(或其他任何指标)。在针对数据集进行测量时,这些模型的MSE为和。如何测试一种模型相对于另一种模型的改进具有统计学意义。D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 例如,假设,,,并且基于数据集计算这些MSE 的样本总数为2000。如何测试,和有显着差异。如果有人可以帮助我解决这个问题,我将不胜感激。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

3
关于使用bigram(N-gram)模型构建文本文档的特征向量
用于文本挖掘的特征构造的传统方法是词袋方法,并且可以使用tf-idf进行增强,以建立表征给定文本文档的特征向量。目前,我正在尝试使用Bi-gram语言模型或(N-gram)来构建特征向量,但还不太清楚该怎么做?我们是否可以仅遵循单词袋的方法,即以二元语法代替单词来计算频率计数,并使用tf-idf加权方案对其进行增强?

1
超越Fisher内核
一段时间以来,Fisher Kernels似乎很受欢迎,因为它们似乎是一种根据概率模型构造核的方法。但是,我很少见到它们在实践中使用过,而且我有很好的权威,认为它们往往效果不佳。他们依靠Fisher信息的计算-引用Wikipedia: Fisher信息相对于f的自然对数θ是二阶导数期望值的负值。信息可以看作是支持曲线的“曲率”在θ的最大似然估计(MLE)附近的度量。 据我所知,这意味着两点之间的核函数就是沿着该曲面的距离-是吗? 但是,这对于在内核方法中使用可能会有问题,因为 对于给定的模型,MLE可能是非常糟糕的估计 MLE周围的支撑曲线的曲率可能无法用于区分实例,例如,如果似然表面非常尖 这似乎抛弃了有关模型的许多信息 如果是这样的话,还有没有更多现代的方法可以从概率方法构造内核?例如,我们可以使用保留集以相同的方式使用MAP估算吗?与概率方法的距离或相似度还有哪些其他概念可以用来构造(有效)内核函数?

1
处理非常大的时间序列数据集
我可以访问非常大的数据集。数据来自四种类型之一的人们在听音乐摘录时的MEG录音。数据如下: 6个科目 3次实验重复(时期) 每个时期120次试用 275个MEG通道在500Hz(= 4000个样本)下每次试验8秒的数据 因此,这里的每个“示例”都是一个大小为[4000x275]的矩阵,并且有2160个此类示例,并且在进行任何特征提取之前。目的是根据大脑信号(4类分类)预测类型。 显然,这里存在一些具有挑战性的问题,即: 数据集不适合内存 数据中将存在很强的时间相关性,并且受试者间的差异将很大。结果,如何分割数据并不明显 信噪比非常低 目前尚不清楚分类器的正确功能是什么 依次进行以下操作: 一个人可以做很多事情。首先,我们可以安全地将采样频率从500Hz降低到200Hz,因为即使考虑到奈奎斯特极限,大脑活动也不会真正发生在100Hz以上。我们也可以从一组渠道中进行抽样(例如,在听觉区域上方居中),但我们不愿先验,因为在其他区域(额叶等)可能会有一些有趣的活动。我们可能还可以删除一部分时间窗口。也许只有前2个对任务很重要?这不是真的。当然每个人都会大喊“ 降维!”,但这也不是一件容易的事。首先,我们必须非常小心地进行训练/测试拆分(请参阅2.),并且在生成特征之前还是之后也不很明显。其次,除了昂贵之外交叉验证或艰苦的视觉检查,没有明显的方法来选择合适的方法或合适的尺寸,我们当然可以仅使用PCA,ICA或随机投影,并希望获得最好的结果。 这很棘手。如果我们在训练集中有连续的样本,我们可能会过度拟合训练集,而如果我们将连续的样本分成训练和测试集,则我们可能会不足以适应训练集,但仍然可能会过度拟合测试集。这里似乎有多种选择: 单科目分类。各个科目各取所需,并根据时代划分。这应该是最简单的任务,因为我们没有试图跨大脑进行预测。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。我们只报告所有主题的平均准确性。当然,我们不会期望这些模型能很好地推广。 学科内分类。将所有主题放在一起,并根据时代划分。实际上,这可能是最简单的任务,因为我们将看到所有受训的对象。但是,我们可能不会期望这些模型能很好地推广到新主题。在这个范围内,可以使用两个剩余的时期进行交叉验证。为了完整性,应该旋转所有组合。 学科间分类。也称为“留一法”,其中将单个科目作为测试数据,其余的用于训练。然后,我们将轮流浏览所有主题。然后将对主题执行交叉验证。我们希望这将是一个更加困难的任务,因为我们每次都试图在一个“新大脑”上进行预测。尽管存在重测信度(即时间相关性导致多少过度拟合)的问题,但我们希望模型能够很好地推广到更大的人群。 这是一个典型的“大海捞针”问题-与音乐体裁或任何体裁特定处理有关的实际信号与大脑活动的“汤”相比可能微不足道。还有一些伪造品,只能被部分去除(主要与移动有关)。我们从数据中得出的任何特征以及处理数据的任何方式都应避免破坏部分感兴趣的信号。 在这里可以想象做各种事情。第一种是简单地将原始数据(连接到向量中)用作特征向量。我不确定这会带来多大的收获-我认为这些向量本质上可能是统一随机的。这确实是一个信号处理问题,但是可以遵循一些一般准则。一种方法是在滑动窗口上进行标准傅里叶分析,从中可以将分量分成不同的频带(α/β/γ等),并将这些统计量(平均值,标准偏差)用作特征。或者可以使用小波,希尔伯特变换,甚至尝试寻找混沌吸引子。当然,我们可以选择内核(线性,多项式,RBF等),以乘以排列的数量。也许最好的做法是生成尽可能多的不同功能集,然后使用MKL或增强方法将它们组合在一起。 您将如何处理这种数据集(如果不是专门的话)?一路上我有什么想念的吗?如果不花费大量的研究时间和计算资源,最可能成功的策略是什么?

3
从庞大的数据集中学习的方法?
基本上,有两种学习大型数据集的常用方法(当您面临时间/空间限制时): 作弊:)-仅使用“可管理”子集进行训练。由于收益递减规律,准确性的损失可以忽略不计-模型的预测性能通常在将所有训练数据纳入模型之前就已经趋于平缓。 并行计算-将问题分解为较小的部分,并在单独的计算机/处理器上解决每个问题。虽然您需要算法的并行版本,但是好消息是,许多常见算法自然是并行的:最近邻居,决策树等。 还有其他方法吗?何时使用它们有什么经验法则吗?每种方法的缺点是什么?

1
MFCC是向检索系统表示音乐的最佳方法吗?
信号处理技术(梅尔频率倒谱)通常用于从音乐作品中提取信息,以用于机器学习任务。该方法给出了短期功率谱,并且将系数用作输入。 在设计音乐检索系统时,这些系数被认为是乐曲的特征(显然不一定是唯一的,而是有区别的)。有没有更适合通过网络学习的特征?诸如Elman网络之类的乐器所使用的随时间变化的特征(例如低音效果)会更有效吗? 哪些特征将构成可以进行何种分类的足够广泛的集合?

8
给定过去购买的数据,可以使用哪种算法来预测耗材使用情况?
考虑到一个据说简单但有趣的问题,鉴于我以前的购买历史,我想写一些代码来预测我不久将需要的消耗品。我敢肯定,这类问题的定义更为通用且经过深入研究(有人建议这与ERP系统等中的某些概念有关)。 我拥有的数据是以前购买的完整历史记录。假设我正在查看纸张供应,我的数据看起来像(日期,纸张): 2007-05-10 500 2007-11-11 1000 2007-12-18 1000 2008-03-25 500 2008-05-28 2000 2008-10-31 1500 2009-03-20 1500 2009-06-30 1000 2009-09-29 500 2009-12-16 1500 2010-05-31 500 2010-06-30 500 2010-09-30 1500 2011-05-31 1000 它不会定期进行“采样”,因此我认为它不符合时间序列数据的条件。 我每次都没有实际库存水平的数据。我想使用这种简单且有限的数据来预测在(例如)3、6、12个月中需要多少纸张。 到目前为止,我才知道我在寻找什么叫做外推法,而不是更多:) 在这种情况下可以使用什么算法? 如果与先前算法不同,哪种算法还可以利用更多的数据点来提供当前的供电水平(例如,如果我知道在XI的日期还剩Y张纸)? 如果您知道更好的术语,请随时编辑问题,标题和标签。 编辑:对于它的价值,我将尝试在python中进行编码。我知道有很多库可以实现或多或少的任何算法。在这个问题中,我想探索可以使用的概念和技术,并把实际的实现留给读者练习。

6
比较来自两个不同随机森林模型的R平方
我正在R中使用randomForest包来开发随机森林模型,以试图解释“宽”数据集中的连续结果,其预测因子比样本多。 具体来说,我正在拟合一个RF模型,允许该过程从大约75个我认为重要的预测变量中进行选择。 我正在使用先前在此处发布的方法,测试该模型对保留测试集的实际结果的预测效果如何,即 ...或在R中: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) 但是现在我可以添加大约25个预测变量。当使用〜100个预测变量集时,R²较高。我要统计测试,换句话说,使用set〜100预测的时候,做了模型试验显著更好比使用〜75个预测模型拟合测试数据。即,测试射频模型在整个数据集上的拟合度所产生的R²明显高于测试射频模型在缩减后的数据集上进行拟合所产生的R²。 这对我来说很重要,因为这是试验数据,要获得额外的25个预测指标非常昂贵,而且我需要知道是否应该在较大的后续研究中为这些预测指标进行测量。 我正在尝试考虑某种重采样/置换方法,但是什么也没想到。

2
使用AUC的理由?
特别是在机器学习文献的面向计算机科学的方面,AUC(接收方操作员特征曲线下的区域)是评估分类器的常用标准。使用AUC有什么理由?例如,是否存在一个特定的损失函数,其最佳决策是具有最佳AUC的分类器?

1
模型似然不显着高于null时(GAM)回归系数的意义
我正在使用R包gamlss运行基于GAM的回归,并假设数据的beta分布为零。我只有一个解释变量在我的模型,所以它基本上是:mymodel = gamlss(response ~ input, family=BEZI)。 该算法给了我系数 ķkk 对于解释变量对平均值的影响(μμ\mu)和相关的p值 k (输入)= 0k(input)=0k(\text{input})=0, 就像是: Mu link function: logit Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.58051 0.03766 -68.521 0.000e+00 input -0.09134 0.01683 -5.428 6.118e-08 如上例所示, k (输入)= 0k(input)=0k(\text{input})=0 被高信心地拒绝了。 然后,我运行空模型:null = gamlss(response ~ 1, family=BEZI)并使用似然比检验比较似然: p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)). 在很多情况下,我得到 p …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.