您会建议哪些数学主题为数据挖掘和机器学习做准备?


30

我正在尝试整理一门自我指导的数学课程,为学习数据挖掘和机器学习做准备。这是通过在Coursera上开始Andrew Ng的机器学习课程而激发的,并认为在继续之前我需要提高自己的数学技能。我不久前从大学毕业,所以我的代数和统计学(特别是政治科学/心理学课程)很生疏。

主题中的答案是ML的全部必备知识吗?仅建议与机器学习直接相关的书籍或课程;我已经研究了其中的一些课程和书籍,但不完全知道要研究的数学主题(例如:数学地址的哪个领域派生出方程式以“最小化成本函数”?)。建议的另一主题(技能和课程工作需要成为数据分析师)仅提及分析数据所需的各种技能。《数学家统计学导论》线程不适用,因为我还没有数学学位。一个类似的线程,数学家希望获得等同于质量统计程度的知识 有一本令人难以置信的统计书籍清单,不过我还是想从一堆生锈的代数开始着手数学,然后再往上走。

那么,对于那些从事机器学习和数据挖掘工作的人来说,您认为数学的哪些领域对您的工作至关重要?您会建议以什么顺序为数据挖掘和机器学习做准备的数学主题?这是我到目前为止的清单和顺序:

  • 代数
  • 前微积分
  • 结石
  • 线性代数
  • 可能性
  • 统计信息(此处有许多不同的子字段,但不知道如何进行细分)

至于数据挖掘和机器学习,通过我目前的工作,我可以访问有关网站/应用程序活动,客户/订阅交易和房地产数据(静态和时间序列)的记录。我希望将数据挖掘和机器学习应用于这些数据集。

谢谢!

编辑:

为了后代的缘故,我想为CMU的Geoffrey Gordon / Alex Smola的机器学习入门课程分享一个有用的数学自我评估


3
根据Coursera课程的先决条件,该信息应在其材料中的某个位置可用。在他们的课程之外/更一般而言,关于统计/ ML / DM需要什么数学的问题让我感到重复。CV上有几篇涵盖该材料的主题,包括:是对ML的必备知识,以及对数据分析所需的技能课程工作(也许还有其他)。
gung-恢复莫妮卡

1
请检查那些线程,与它们链接紧密相关的线程,并搜索站点。如果您在阅读后仍然有疑问,请返回此处并编辑此问题,以使其更加与众不同/更精确地指定您仍然需要知道的其他地方未涵盖的内容。
gung-恢复莫妮卡

Answers:


15

@gung提出的建议当然值得跟进。完成课程后,我认为您的清单是一个好的开始。一些评论:

  1. 线性代数和矩阵代数是同一件事,因此将后者删除。
  2. 在微积分中,一定要包括偏微分。这是微积分应用于多个变量的函数(符号表示,如果是和的函数,则您希望使用而不是 )。幸运的是,这并不困难。X ÿ žzxy džzxdzdx
  3. 在微积分中,除了基本集成(甚至可能不需要)之外,您不需要任何其他东西。这是幸运的,因为集成很困难。
  4. 添加基本​​优化,即找到一个函数的最大值或最小值,通常是一个以上变量的函数。至少必须对梯度下降有所了解。
  5. 就难度而言,您可能希望在1年级本科生的开始和结束之间。
  6. 尝试在线或以其他方式阅读一些基本的概率和统计信息文本,但不要太担心(无论如何,基本数学都是理解概率和统计信息的先决条件)。如果您进行某些课程(例如该课程),则建议您弄清楚需要学习什么以及兴趣所在。至少在一开始,您不想做的一件事就是花大量时间学习假设检验。您宁愿转向理解基本统计信息(随机变量,概率分布(PFD,CDF),描述性统计信息),然后尝试理解回归。

5

这个论坛上有很多很棒的话题-包括THIS ONE,我发现它对我制定数据科学工作的重要技能的概念性概述特别有用。

如上所述,有许多在线课程可用。例如,Coursera现在拥有一个数据科学专业化课程,其中包含许多课程,这些课程可能涵盖您工作所需的一些工具。


3

如果您希望大量学习机器学习/数据挖掘,我强烈建议您优化/线性代数/统计和概率。是关于概率的书籍清单。希望能有所帮助。


3

至于刷非常基本的数学技能,我正在使用这些书:

经济学和金融学的数学要素。Mavron,Vassilis C.,Phillips和Timothy N本书涵盖基本的数学技能(加减法),偏微分,积分,矩阵和行列式,以及关于优化和微分方程的一小章。它是针对经济和金融的,但它只是一本小书,各章的顺序适合我的需要,对我来说很容易阅读。

统计分析:Microsoft Excel2010。Conrad Carlberg涵盖了基本的统计分析,多元回归和协方差分析,并且使用excel。

使用R. Andy Field,Jeremy Miles,ZoëField发现统计信息。还没看过。它使用R。

基本线性代数。罗恩·拉森(Ron Larson),大卫·C·法沃(David C.Falvo)。

矩阵方法:应用线性代数作者:加布里埃尔·B·科斯塔(Richard Bronson),加布里埃尔·B·科斯塔(Gabriel B. Costa)。涵盖基本线性代数和矩阵演算

这些是我用来与数据挖掘/机器学习相关的基础数学书

希望这可以帮助


3

在所谓的“开放源数据科学大师”中,这里列出了(并分类了)很多相关资源。

它们专门针对数学列出:

  1. 线性代数与编程
  2. 统计
  3. 微分方程和微积分

尽管它们确实列出了一些您可能会觉得有用的教科书,但它们的建议相当笼统。


2
  • 概率和统计至关重要。一些关键字是假设检验,多元正态分布,贝叶斯推断(联合概率,条件概率),均值,方差,协方差,Kullback-Leibler散度,...
  • 基本的线性代数对于机器学习至关重要。您可以学习的主题是特征分解和奇异值分解。(当然,您应该知道如何计算矩阵乘积。)
  • 正如TooTone已经提到的那样:优化很重要。您应该知道什么是梯度下降,也许可以看看牛顿的方法,Levenberg-Marquardt,Broyden-Fletcher-Goldfarb-Shanno。
  • 微积分不是很重要,但是了解如何计算函数的偏导数(雅可比矩阵,黑塞矩阵等)可能很有用,并且您应该知道整数是什么。

0

线性代数,统计,微积分。我认为您可以与ML一起学习-甚至在学习基础知识之后也可以学习。入门课程/书籍在数学入门章节方面做得很好,您在学习ML的同时学习数学要点。我播了一个播客片段,介绍了机器学习所需的数学知识以及学习它们的资源:机器学习指南#8


0

在开始任何机器学习课程之前,请先学习以下数学课程。也不要尝试一次尝试。学习基本概念,然后再次提高您的数学技能并重复:

数学主题如下:-

  • 线性代数
  • 可能性
  • 基础微积分
  • 功能的最大值和最小值
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.