统计和大数据 machine-learning

11

在最近的一次座谈会上，发言人的摘要声称他们正在使用机器学习。在谈话中，与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后，他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。什么时候是线性回归机器学习，而不是简单地找到一条最佳拟合线？（研究人员的摘要是否引起误解？）机器学习近来引起了人们的广泛关注，因此做出这样的区分似乎很重要。我的问题与此类似，只是该问题要求定义“线性回归”，而我的问题是何时将线性回归（具有广泛的应用）适当地称为“机器学习”。澄清说明我不是在问线性回归何时与机器学习相同。正如某些人指出的那样，单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时，是在说机器学习是正确的。撇开所有笑话（见评论），我问这的原因之一是因为不道德地说一个人正在做机器学习，如果他们不是真正在做机器学习，那么就在您的名字上加一些金星。（许多科学家计算某些类型的工作最佳拟合线的，但这并不意味着他们正在做机器学习）。在另一方面，也有清楚的情况下，当线性回归被用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)

90 regression machine-learning multiple-regression terminology definition

5

K均值和K最近的邻居之间的主要区别是什么？

我知道k-means是无监督的，用于聚类等，而k-NN是有监督的。但是我想知道两者之间的具体区别吗？

86 machine-learning k-means k-nearest-neighbour

7

留一法与K折交叉验证的偏差和方差

在模型方差和偏差方面，不同的交叉验证方法如何比较？我的问题部分源于此线程：折交叉验证中的最佳折叠数：留一法CV始终是最佳选择吗？ķKK ķ。那里的答案表明，通过留一法交叉验证学习的模型具有比通过常规倍交叉验证法学习的模型更高的方差，这使得留一法CV成为较差的选择。ķKK 但是，我的直觉告诉我，在留一式CV中，模型之间的方差应该比折CV 中的方差小，因为我们仅跨折移动一个数据点，因此折之间的训练集实质上重叠。ķKK 或朝另一个方向发展，如果折CV 中的较低，则训练集的折折将完全不同，并且所得的模型更有可能不同（因此方差更高）。 ķķKKķKK 如果上述论点是正确的，为什么用留一法CV学习的模型会有更高的方差？

83 machine-learning variance cross-validation bias bias-variance-tradeoff

2

tanh激活函数与S型激活函数

tanh激活功能为： Ť 一个Ñ ħ （X ） = 2 ＆CenterDot;＆σ（2 x ） − 1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 其中，S形函数，被定义为：。σ （x ）= e xσ（x ）σ(x)\sigma(x) σ（x ）= eX1 + eXσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} 问题：使用这两个激活函数（tanh与sigma）之间真的有关系吗？在哪种情况下哪个功能更好？

82 machine-learning neural-networks optimization cost-maximization

5

“封闭式解决方案”是什么意思？

我经常碰到“封闭式解决方案”一词。封闭式解决方案是什么意思？如何确定一个给定问题的封闭式解决方案？在网上搜索时，我发现了一些信息，但是在开发统计或概率模型/解决方案的过程中却找不到任何信息。我对回归非常了解，因此，如果任何人都可以参考回归或模型拟合来解释这一概念，那么它将很容易使用。:)

82 regression machine-learning probability terminology stochastic-processes

8

目标函数，成本函数，损失函数：它们是同一件事吗？

在机器学习中，人们谈论目标函数，成本函数，损失函数。它们只是同一事物的不同名称吗？什么时候使用它们？如果他们不总是指同一个事物，有什么区别？

80 machine-learning terminology artificial-intelligence

5

非策略学习和基于策略学习之间有什么区别？

人工智能网站对非政策性学习和政策性学习的定义如下： “非策略学习者独立于代理的行为而学习最优策略的价值。Q学习是非策略学习者。非策略学习者学习由代理执行的策略的价值，包括探索步骤。” 我想请您澄清一下，因为它们似乎对我没有任何影响。两种定义似乎都相同。我真正了解的是无模型和基于模型的学习，我不知道他们是否与所讨论的问题有任何关系。如何独立于代理的行为来学习最佳策略？代理执行动作时不是学习策略吗？

78 machine-learning reinforcement-learning artificial-intelligence

3

示例：使用glmnet获得二进制结果的LASSO回归

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

1

帮助我了解支持向量机

我了解支持向量机旨在将输入集分为几个不同类的基础知识，但是我不了解其中的一些细节。首先，我对Slack变量的使用有些困惑。他们的目的是什么？我正在做一个分类问题，在该问题中，我从放在鞋垫上的传感器捕获了压力读数。在记录压力数据的同时，受试者将坐，站和走几分钟。我想训练一个分类器，以便能够确定一个人是坐着，站着还是走着，并能够对将来的任何测试数据进行分类。我需要尝试哪种分类器？对我来说，从捕获的数据中训练分类器的最佳方法是什么？我有1000个坐，站和行走条目（总计3x1000 = 3000），并且它们都具有以下特征向量形式。（来自传感器1的压力，来自传感器2的压力，来自传感器3的压力，来自传感器4的压力）

76 machine-learning classification svm

6

在机器学习中执行交叉验证时为“最终”模型选择特征

我对功能选择和机器学习有些困惑，我想知道您是否可以帮助我。我有一个微阵列数据集，该数据集分为两组并具有1000多个特征。我的目标是获得签名中的少量基因（我的特征）（10-20个），从理论上讲，我可以将其应用于其他数据集以对这些样本进行最佳分类。由于我没有那么多样本（<100），因此我没有使用测试和训练集，而是使用了留一法交叉验证来确定稳健性。我读过，应该对样本的每一部分进行特征选择，即选择一个样本作为测试集在其余样本上执行特征选择使用所选功能将机器学习算法应用于剩余样本测试测试集是否正确分类转到1。如果这样做，您每次可能会获得不同的基因，那么如何获得“最终”最优基因分类器呢？即第6步是什么。我的意思是最理想的是任何进一步研究都应使用的基因集合。例如，假设我有一个癌症/正常数据集，我想找到将根据SVM对肿瘤类型进行分类的前10个基因。我想知道可以在进一步实验中使用的基因集和SVM参数，以查看其是否可以用作诊断测试。

76 machine-learning classification cross-validation feature-selection genetics

3

为什么Logistic回归不称为Logistic分类？

由于Logistic回归是处理分类因变量的统计分类模型，因此为什么不将其称为Logistic分类？不应该将“回归”名称保留给处理连续因变量的模型吗？

75 regression machine-learning logistic classification terminology

3

在出版物中呈现随机森林的最佳方法？

我正在使用随机森林算法作为具有1000多个特征的微阵列研究中两组的鲁棒分类器。呈现随机森林的最佳方法是什么，以便有足够的信息使其在纸上可重现？如果要素数量少，R中是否有绘制方法实际绘制树？ OOB错误率估计是否是引用的最佳统计数据？

75 r machine-learning classification random-forest microarray

6

当有封闭形式的数学解可用时，为什么要使用梯度下降进行线性回归？

我正在在线学习机器学习课程，并了解了有关梯度下降的知识，用于计算假设中的最佳值。 h(x) = B0 + B1X 如果我们可以通过以下公式轻松找到值，为什么需要使用渐变下降？这看起来也很简单。但是GD需要多次迭代才能获得该值。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注意：如https://www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorial中所述我确实检查了以下问题，但对我来说不清楚。为什么需要梯度下降？为什么优化是通过梯度下降而不是解析方法来解决的？上面的答案比较了GD与使用导数。

73 regression machine-learning gradient-descent

11

在没有博士学位的情况下从事数据挖掘工作

一段时间以来，我对数据挖掘和机器学习一直很感兴趣，部分原因是我在学校主修该领域，还因为我真的很兴奋，尝试解决需要更多思考而不只是编程的问题知识及其解决方案可以有多种形式。我没有研究人员/科学家背景，我来自计算机科学背景，重点是数据分析，我拥有硕士学位而不是博士学位。我目前有一个与数据分析相关的职位，即使这不是我正在做的工作的主要重点，但我至少对此有一定的了解。前段时间我在几家公司工作时面试，并与一些招聘人员交谈，我发现一种常见的模式，人们似乎认为您需要拥有博士学位才能进行机器学习，即使我可能概括得太多了（有些公司并不是特别在意博士学位）。虽然我认为在该领域拥有博士学位是件好事，但我认为这不是绝对必要的。我对大多数现实世界的机器学习算法有相当不错的了解，我自己（在学校或个人项目中）已经实现了大多数算法，并且在解决涉及机器学习/数据挖掘和统计的问题时感到非常自信。而且我有一些朋友具有相似的个人资料，他们似乎对此也非常了解，但同时也感到，如果您不是博士学位，那么一般而言，公司对于聘用数据挖掘人员会非常害羞。我想获得一些反馈，您认为博士学位对于在这个领域非常专注是绝对必要的吗？（在将这个问题发布到这里之前，我有所犹豫，但是由于它似乎是meta上可以接受的主题，因此我决定将这个问题发布了我已经思考了一段时间的问题。）

73 machine-learning data-mining careers phd

4

为什么神经网络变得更深而不是更广泛？

近年来，卷积神经网络（或一般来说可能是深层神经网络）变得越来越深，最先进的网络从7层（AlexNet）到1000层（Residual Nets）在4的空间中年份。深度网络提高性能的原因在于，可以学习更复杂的非线性函数。如果有足够的训练数据，这将使网络更容易区分不同的类别。但是，趋势似乎并没有随着每一层中参数的数量而变化。例如，尽管层数增加了很多，但是卷积层中的特征图的数量或完全连接层中的节点的数量仍然大致相同，并且大小仍然相对较小。但是从我的直觉来看，似乎增加每层参数的数量将使每一层都有更丰富的数据源，从中可以学习其非线性函数；但是这个想法似乎已经被忽略了，只支持简单地增加更多的层，每个层都有少量的参数。因此，尽管网络已变得“更深”，但它们并没有变得“更广泛”。为什么是这样？

73 machine-learning classification neural-networks deep-learning conv-neural-network

Questions tagged «machine-learning»