Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
深度卷积神经网络有哪些有用的数据增强技术?
背景: 在看到Geoffrey Hinton的精彩演讲后,我最近更深入地了解了在训练卷积神经网络时数据增强的重要性。 他解释说,当代的卷积神经网络无法概括被测对象的参照系,这使得网络很难真正地理解对象的镜像是相同的。 已经进行了一些研究来尝试对此进行补救。这是许多例子之一。我认为这有助于确定当今训练卷积神经网络时关键数据的增长程度。 数据增强技术很少相互对照。因此: 问题: 从业人员在哪些论文中报告其表现特别出色? 您发现有用的一些数据增强技术是什么?

3
机器学习模型(GBM,NN等)如何用于生存分析?
我知道传统的统计模型,例如Cox比例风险回归和一些Kaplan-Meier模型,可以用来预测直到下次事件发生的天数,例如失败等,例如生存分析 问题 机器学习模型(例如GBM,神经网络等)的回归版本如何用于预测事件发生之前的天数? 我相信仅将发生之前的天数用作目标变量并仅运行回归模型是行不通的?为什么不起作用?如何解决? 我们可以将生存分析问题转换为分类,然后获得生存概率吗?如果那么该如何创建二进制目标变量? 机器学习方法与Cox比例风险回归和Kaplan-Meier模型等的优缺点是什么? 想象一下样本输入数据的格式如下 注意: 传感器每隔10分钟对数据进行ping操作,但有时由于网络问题等原因可能会丢失数据,如带有NA的行所示。 var1,var2,var3是预测变量,解释变量。 failure_flag告知计算机是否发生故障。 每个机器ID每10分钟间隔有最近6个月的数据 编辑: 预期的输出预测应采用以下格式 注意:我想预测未来30天每天每台计算机发生故障的可能性。


3
卷积神经网络如何精确地使用卷积代替矩阵乘法?
我正在读Yoshua Bengio关于深度学习的书,它在第224页上说: 卷积网络只是简单的神经网络,它在其至少一层中使用卷积代替一般的矩阵乘法。 但是,我不是100%确定如何从数学上精确地“通过卷积替换矩阵乘法”。 我真正感兴趣的是为1D中的输入向量定义此值(例如),因此我将没有输入作为图像并尝试避免2D的卷积。x∈Rdx∈Rdx \in \mathbb{R}^d 因此,例如,在“正常”神经网络中,操作和馈送模式可以简洁地表达,如Andrew Ng的注释: ˚F (Ž (升+ 1 ))= 一个(升+ 1 )W(l)a(l)=z(l+1)W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 其中是在使向量通过非线性之前计算的向量。非线性作用在向量并且是有关层的隐藏单元的输出/激活。 ˚F Ž (升)一个(升+ 1 )z(l)z(l)z^{(l)}fffz(l)z(l)z^{(l)}a(l+1)a(l+1)a^{(l+1)} 对我来说,这种计算很清楚,因为矩阵乘法已为我明确定义,但是,用卷积代替矩阵乘法对我来说似乎并不明确。即 ˚F (Ž (升+ 1 ))= 一个(升+ 1 )W(l)∗a(l)=z(l+1)W(l)∗a(l)=z(l+1) W^{(l)} * a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 我想确保我能精确地数学理解上述方程式。 …

3
随机森林和增强算法是参数化还是非参数化?
通过阅读出色的统计模型:这两种文化(Breiman 2001),我们可以抓住传统统计模型(例如线性回归)和机器学习算法(例如Bagging,Random Forest,Boosted tree ...)之间的所有差异。 布雷曼批评数据模型(参数化),因为它们基于这样的假设:观测值是由统计学家规定的已知的正式模型生成的,该模型可能无法很好地模仿自然。另一方面,机器学习算法不采用任何形式化的模型,而是直接从数据中学习输入变量和输出变量之间的关联。 我意识到Bagging / RF和Boosting也是某种参数:例如,ntree,RF中的mtry,学习率,包率,随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值,因此我们还需要根据数据估算这些参数。 那有什么区别呢?RF和Boosted Trees参数模型吗?


1
机器学习社区是否在滥用“以……为条件”和“以……为参数”?
假设取决于。严格来说,αXXXαα\alpha 如果和都是随机变量,我们可以写 ;α p (X | α )XXXαα\alphap (X| α )p(X∣α)p(X\mid\alpha) 但是,如果是一个随机变量,是一个参数,我们必须编写。α p (X ; α )XXXαα\alphap (X; α )p(X;α)p(X; \alpha) 我几次注意到机器学习社区似乎忽略了差异并滥用了这些术语。 例如,在著名的LDA模型中,是Dirichlet参数而不是随机变量。αα\alpha 它不应该是吗?我看到很多人,包括LDA论文的原始作者,都将其写为。p (θ | α )p (θ ; α )p(θ;α)p(\theta;\alpha)p (θ | α )p(θ∣α)p(\theta\mid\alpha)

4
交叉验证与数据监听有何不同?
我刚读完《统计学习入门》。我想知道使用交叉验证为各种机器学习技术找到最佳调整参数是否不同于数据监听? 我们正在反复检查调整参数的哪个值会在测试集中产生最佳的预测结果。如果我们得到的调整参数恰好偶然地适合于此特定测试集,而在将来的某些测试集上表现不佳怎么办? 请原谅我对机器学习的新知识,我渴望受过教育。 编辑:请参阅@AdamO答案有关“数据监听”的定义。我在问题中使用的术语非常不准确。

3
多层次/层次结构数据上的随机森林
我对机器学习,CART技术等并不陌生,我希望我的天真不会太明显。 随机森林如何处理多级/分层数据结构(例如,当需要进行跨级交互时)? 也就是说,在几个层次级别上具有分析单位的数据集(例如,嵌套在学校中的学生,以及有关学生和学校的数据)。 仅作为示例,考虑一个多级数据集,其中第一级的个人(例如,具有投票行为,人口统计等数据)嵌套在第二级的国家中(具有国家级数据;例如,人口): ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 0 67 0 1 53.01 6 1 34 1 2 47.54 7 0 54 1 …

3
对于非线性数据,是否应尽可能使用内核技巧?
我最近了解了内核技巧的用法,该技巧将数据映射到更高维度的空间,以尝试线性化那些维度中的数据。在任何情况下我都应避免使用此技术?仅仅是找到正确的内核功能的问题吗? 对于线性数据,这当然无济于事,但对于非线性数据,这似乎总是有用的。就训练时间和可伸缩性而言,使用线性分类器比非线性分类器容易得多。

2
多类感知器如何工作?
我没有数学背景,但是我了解简单的Perceptron的工作原理,并且我认为我掌握了超平面的概念(我想像它是3D空间中的一个平面,它将两个点云分开,就像一条线分开一样2D空间中的两个点云)。 但是我不明白一架飞机或一条直线如何分别在3D空间或2D空间中分隔三个不同的点云–从几何上讲这是不可能的,是吗? 我试图理解Wikipedia文章中的相应部分,但是在句子“这里,输入x和输出y是从任意集合中提取”时,已经惨遭失败。有人可以向我解释多类感知器,以及它与超平面的想法如何结合,还是可以向我指出一个不太数学的解释?


2
自我学习能带给我多远?
我从未参加过官方或结构化的数据分析或机器学习课程(最近的在线产品除外),并且从阅读和尝试中学到了很多我所知道的知识。我知道我离找到工作很远。 我的问题不是哪个更好(像这个问题一样),而是我可以达到一个可以申请工作并且实际上有机会独自学习的水平吗?另外,是否可以在合理的时间范围内(可能是10年?我现在31岁了...)? 还是我必须找到一种参加某种大学/大学的方法?

1
机器学习中的特征构建和规范化
可以说我想为电影M创建一个Logistic分类器。我的特征将是诸如人的年龄,性别,职业,位置之类的东西。因此,训练集将类似于: 年龄性别职业位置Like(1)/ Dislike(0) 23 M软件US 1 24 F Doctor UK 0 等等。...现在我的问题是我应该如何缩放和表示我的特征。我想过的一种方法是:将年龄划分为年龄组,因此18-25、25-35、35岁以上,性别为M,F,位置为美国,英国,其他。现在为所有这些值创建一个二进制特征,因此age将具有3个二进制特征,每个特征对应于一个年龄组,依此类推。因此,来自美国的28岁男性将被表示为010 10 100(010->年龄组25-35,10->男性,100->美国) 在这里表示功能的最佳方法是什么?另外,我在一些例子中也注意到了。sklearn的研究表明所有特征均已按某种方式进行了缩放/归一化,例如,性别由两个值分别代表,男性和女性为0.0045和-.0.0045。我不知道如何进行这样的缩放/道德化?

5
适当的时间数据聚类技术?
我有活动频率的时间数据。我想识别数据中的群集,这些群集指示具有相似活动级别的不同时间段。理想情况下,我想在不先验指定集群数量的情况下识别集群。 什么是合适的聚类技术?如果我的问题没有足够的信息来回答,那么确定适当的聚类技术需要提供哪些信息? 以下是我正在想象的数据/集群类型的说明:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.