Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
在深度学习中的深度残差网络中,残差学习块到底是什么?
我正在阅读论文《深度残差学习以进行图像识别》,但我很难100%地确定残差块在计算上的含义。阅读他们的论文,他们有图2: 它说明了残余块应该是什么。残差块的计算是否与以下内容完全相同: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) 或者是别的什么? 换句话说,也许是试图与论文的符号相匹配的是: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} 真的吗? yy\mathbf{y} σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x) \sigma( \mathcal F(x) + x ) = \sigma( …

2
将Pearson相关系数作为机器学习中的优化目标
在机器学习中(针对回归问题),我经常看到均方误差(MSE)或均方绝对误差(MAE)被用作最小化(加上正则化项)的误差函数。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,则: 与MSE / MAE相比,在什么情况下相关系数是更好的指标? 在这些情况下,MSE / MAE还是可以使用的良好代理费用功能吗? 直接使相关系数最大化是可能的吗?这是一个稳定的目标函数吗? 我找不到在优化中直接将相关系数用作目标函数的情况。如果有人可以向我介绍该领域的信息,我将不胜感激。

1
Logistic损失函数的梯度
我想问一个与此有关的问题。 我在这里找到了为xgboost编写自定义损失函数的示例: loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) grad <- preds …


2
回归模型的VC维
在讲座系列“ 从数据中学习”中,这位教授提到VC维度量了给定模型可以破碎多少点的模型复杂性。因此,这对于分类模型非常有效,在分类模型中,如果分类器能够有效地粉碎k个点,我们可以说出N个点,那么VC维度量将为K。但是我不清楚如何为回归模型测量VC维?

4
强化学习教科书
我正在寻找强化学习中的教科书/讲义。我喜欢“统计学习导论”,但不幸的是,它们没有涵盖此主题。我知道萨顿(Sutton)和巴托(Barto)的书是标准参考书,也许NDP也不错,但是它们的年代是1997-98,而且我希望找到一个更现代的博览会,因为该领域在最近可能会有相当大的发展。时间。

2
面板数据的机器学习算法
在这个问题中- 是否有一种考虑结构化/分层/多级预测变量的构造决策树的方法?-他们提到了树木的面板数据方法。 是否有支持矢量机和神经网络的特定面板数据方法?如果是这样,您能否引用一些有关算法和实现它的R包的文章?

2
如何比较两种排名算法?
我想比较两种排名算法。在这些算法中,客户在搜索中指定一些条件。根据客户的要求,这些算法应为数据库中的每个项目分配一个分数,并检索得分最高的项目。 我在该站点上阅读了与我的问题相关的不同主题,并在网上搜索。根据我的搜索,最相关的文章解释了一些用于比较排名算法的指标,这是:Brian McFee和Gert RG Lanckriet,Metric Learning to Rank,ICML 2010(https://bmcfee.github.io/papers/mlr .pdf)。我认为prec @ k,MAP,MRR和NDCG是可以使用的良好指标,但是我有一个问题: 我的算法对结果进行排序,因此结果列表中的第一项是得分最高的最佳项,第二项结果是第二高分,依此类推。我将搜索算法限制为例如找到5个最佳结果。结果是最热门的5个项目。因此,精度将为1。当我限制搜索以找到最佳结果时,它将找到最佳结果。同样,精度将为1。但是问题是,看到此结果的人无法接受。 我能做什么?我如何比较这些算法并显示一种算法优于另一种算法?

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
R中k均值聚类的解释结果
我正在使用kmeansR 的指令在Anderson的虹膜数据集上执行k-means算法。我对我得到的一些参数有疑问。结果是: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 在这种情况下,“集群意味着”代表什么?它是集群中所有对象的距离的平均值吗? 在最后一部分中,我还有: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) 那个88.4%的值,可能是它的解释?

2
如何将逻辑回归和随机森林的结果结合起来?
我是机器学习的新手。我在同一数据集上应用了逻辑回归和随机森林。因此,我得到了可变的重要性(逻辑回归的绝对系数和随机森林的可变重要性)。我正在考虑将两者结合起来以获得最终可变的重要性。谁能分享他/她的经验?我已经检查了装袋,提升,合奏建模,但是这些不是我所需要的。他们更多地是在跨重复项合并同一模型的信息。我正在寻找的是结合多个模型的结果。

1
内核化的k最近邻居
我是内核的新手,在尝试将kNN内核化时遇到了障碍。 初赛 我使用多项式核: ķ(X,Ý)= (1 + ⟨ X,ÿ ⟩ )dķ(X,ÿ)=(1个+⟨X,ÿ⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d 典型的欧几里得kNN使用以下距离度量: d(x,y)= | | x − y | |d(X,ÿ)=||X-ÿ||d(\mathbf{x}, \mathbf{y}) = \vert\vert \mathbf{x} - \mathbf{y} \vert\vert 令将x映射到某些高维特征空间。然后,可以用内积表示上述距离度量在希尔伯特空间中的平方: d 2(f (x ),f (y ))= K (x,x)− 2 K (x,y)+ K (y,y)F(x)F(X)f(\mathbf{x})XX\mathbf{x}d2(f(x ),f(y))= K(x,x)− 2 K(x,y)+ …

1
随机森林(或其他分类器)的分层分类
因此,我得到了大约60 x 1000的矩阵。我将其视为具有1000个特征的60个对象。这60个对象分为3类(a,b,c)。每个类别20个对象,我们知道真正的分类。我想在这60个训练示例集上进行有监督的学习,并且我对分类器的准确性(和相关指标)以及对1000个特征的特征选择都感兴趣。 首先,我的命名方式如何? 现在真正的问题是: 如我所述,我可以在上面添加随机森林,或者其他任何数量的分类器。但是有一个微妙之处-我真的只关心区分c类与a类和b类。我可以合并类a和b,但是有一种很好的方法来使用先验知识,即所有非c对象都可能形成两个不同的集群吗?我更喜欢使用随机森林或其变体,因为事实证明它对类似于我的数据有效。但是我可以说服我尝试其他方法。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.