Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

6
学习如何实现集成方法的资源
我从理论上了解了它们的工作方式(但有一定的了解),但不确定如何实际使用集成方法(例如投票,加权混合等)。 有什么好的资源可以实现集成方法? 是否有关于Python实现的特殊资源? 编辑: 为了根据讨论的讨论清理一些内容,我不是在寻找诸如randomForest等的集成算法。而是,我想知道如何组合不同算法的不同分类。 例如,假设某人使用逻辑回归,SVM和其他一些方法来预测某个观测值的类别。根据这些预测来获取班级的最佳估计的最佳方法是什么?

3
有什么好的,免费的期刊来跟踪机器学习的最新发展?
随时用“新闻”代替任何其他有用的知识门户。 我有兴趣关注机器学习的新发展,以期达到实际应用。我不是要发表自己的著作的学者(至少不是在该领域),但我确实想知道可能在实践上有用的新算法或技巧。 唯一需要注意的是,日记/会议记录或任何内容都必须免费提供而不需要订阅。



2
学习机器学习算法所需的概率基础的最佳方法是什么?
几年前,我在大学里修过一门概率论课程,但现在我正在学习一些机器学习算法,其中一些数学令人迷惑。 尤其是现在,我正在学习EM算法(期望最大化),似乎在我所需要的和所拥有的之间有很大的脱节。 我不是要书或网站,而是要学习足够多的这些主题以对使用它们的算法有透彻了解的方法是什么?是否需要阅读一本书并进行数百次练习?还是从这个意义上讲,这种杀伤力过大? 编辑:如果这是此问题的错误位置,请投票迁移:)


2
当稀有性是由于大量反事实事件而导致的“稀有”事件的监督学习
假设您观察到市场中买卖双方之间的“匹配”。您还可以观察买家和卖家的特征,以用于预测未来的比赛并向市场双方提出建议。 为简单起见,假设有N个买家和N个卖家,并且每个人都找到一个匹配项。有N个匹配项和(N-1)(N-1)个不匹配项。包罗万象的训练数据集具有N +(N-1)*(N-1)个观测值,这可能会过大。从(N-1)(N-1)个不匹配项中随机采样并在减少的数据上训练算法似乎更为有效。我的问题是: (1)从不匹配项中采样以构建训练数据集是否是解决此问题的合理方法? (2)如果(1)为真,是否有严格的方法来确定要包含的(N-1)(N-1)块中有多少?

3
使用GLMNET还是LARS计算LASSO解决方案?
我想获得LASSO问题的系数 | | ÿ- Xβ| | +λ | | β| |1个。||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 问题是glmnet和lars函数给出不同的答案。对于glmnet函数,我要求的系数。| Y | | 而不只是,但我仍然得到不同的答案。λ / | | ÿ| |λ/||Y||\lambda/||Y||λλ\lambda 这是预期的吗?lars和glmnet之间是什么关系?我知道glmnet解决LASSO问题的速度更快,但是我想知道哪种方法更强大?λλλ\lambdaλλ\lambda deps_stats恐怕我的数据集太大,以至于LARS无法处理它,而另一方面glmnet可以处理我的大型数据集。 mpiktas我想找到(Y-Xb)^ 2 + L \ sum | b_j |的解决方案 但是,当我从两种算法(拉尔斯和glmnet)询问它们对于特定L的计算系数时,我得到了不同的答案……我想知道这是正确的/预期的吗?或者我只是为两个函数使用了错误的lambda。

5
不同长度时间序列的SVD维数缩减
我正在使用奇异值分解作为降维技术。 给定N维向量D,其思想是表示不相关维的变换空间中的特征,这将以重要性降序将大多数数据信息压缩到该空间的特征向量中。 现在,我正在尝试将此过程应用于时间序列数据。问题在于并非所有序列都具有相同的长度,因此我无法真正构建num-by-dim矩阵并应用SVD。我的第一个想法是通过构建num-by-maxDim矩阵并用零填充空白空间来用零填充矩阵,但是我不确定这是否正确。 我的问题是,如何将SVD降维方法应用于不同长度的时间序列?或者,是否还有其他通常用于时间序列的本征空间表示方法? 下面是一段MATLAB代码来说明这一想法: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

1
在“随机森林”中,为什么在节点级别而不是树级别上选择特征的随机子集?
我的问题:为什么随机森林会考虑特征的随机子集,以便在每棵树的节点级别而不是树级别进行拆分? 背景:这是一个历史问题。田锦镐(Tin Kam Ho)于1998年发表了有关构建“决策森林”的论文,该文章随机选择了用于生长每棵树的特征子集。几年后,在2001年,Leo Breiman发表了他的开创性的《随机森林》论文,其中特征子集是随机的。在每个树内的每个节点上选择,而不是在每个树上选择。尽管Breiman引用了Ho,但他没有具体说明从树级到节点级随机特征选择的过程。 我想知道是什么推动了这一发展。似乎在树级别选择特征子集仍会完成树的所需解相关。 我的理论:我在其他地方都没有看到过这种说法,但是就获得特征重要性的估计而言,随机子空间方法似乎效率较低。为了获得重要程度的估计值,对于每棵树,将特征一一随机排列,并记录袋外观察结果的错误分类增加或错误增加。因这种随机排列而导致错误分类或错误增加的变量很高,是那些具有最高重要性的变量。 如果我们用随机子空间的方法,每棵树,我们只考虑的功能。可能要花几棵树才能考虑所有预测变量。另一方面,如果我们在每个节点上考虑特征的不同子集,则在更少的树之后我们将考虑每个特征更多次,从而使我们对特征重要性的估计更加可靠。mmmppppppmimim_ippp 到目前为止,我所看的是:到目前为止,我已经阅读了Breiman的论文和Ho的论文,并进行了广泛的在线搜索以比较方法,而没有找到确切的答案。请注意,之前曾问过类似的问题。通过将我的推测/工作纳入可能的解决方案,这个问题进一步扩大了。我会对比较这两种方法的任何答案,相关引文或模拟研究感兴趣。如果没有结果,我计划比较两种方法来运行自己的仿真。

5
为什么大数据集的梯度下降效率不高?
假设我们的数据集包含一百万个示例,即,并且我们希望使用梯度下降对这些数据集执行逻辑或线性回归。x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} 梯度下降法使效率低下是什么? 回想一下在时间处的梯度下降步长为:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) 其中是损失函数。fff 我没有发现上述步骤导致算法效率低下的任何异常情况。它是的计算吗?不能预先计算此操作,即已经计算出每个,并只是在每个数据点对其求值∇f(x)∇f(x)\nabla f(x)∂f∂x∂f∂x\frac{\partial f}{\partial x}xi?xi?x_i?

1
为什么朴素贝叶斯分类器最适合0-1损失?
朴素贝叶斯分类器是基于最大化类成员资格的后验P (C | x )将项分配给类C的分类器,并假定项的特征是独立的。xxxCCCP(C|x)P(C|x)P(C|x) 0-1损失是指将任何未分​​类归类为“ 1”的损失,并将任何正确分类为“ 0”的损失。 我经常读(1),“朴素贝叶斯”分类器对于0-1损失是最佳的。为什么会这样呢? (1)一个示例性来源:贝叶斯分类器和贝叶斯误差


3
人工神经网络背后的理论结果
我刚刚在Coursera的机器学习课程中介绍了人工神经网络,我想了解它们背​​后的更多理论。我发现他们模仿生物学的动机有些不尽人意。 从表面上看,似乎在每个级别上我们都用线性组合替换了协变量。通过反复执行,我们可以进行非线性模型拟合。这就引出了一个问题:为什么有时有时只用神经网络来拟合非线性模型就更好了。 更笼统地说,我想知道人工神经网络如何适合贝叶斯推理框架,这在ET Jaynes的书“概率论:科学逻辑”中有详细描述。或者,简单地说,为什么人工神经网络工作时会起作用?并且,当然,他们做出成功的预测意味着他们遵循了上述框架。

1
解释LLE(局部线性嵌入)算法的步骤?
我了解LLE算法背后的基本原理包括三个步骤。 通过某种度量(例如k-nn)找到每个数据点的邻域。 找到每个邻居的权重,这些权重表示邻居对数据点的影响。 根据计算出的权重构造数据的低维嵌入。 但是,在我阅读的所有课本和在线资源中,步骤2和步骤3的数学解释令人困惑。我无法解释为什么使用这些公式。 在实践中如何执行这些步骤?有没有任何直观的方式来解释所使用的数学公式? 参考:http : //www.cs.nyu.edu/~roweis/lle/publications.html

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.