这样把图像啊,声音啊这类的原始数据一层层转化为我们数学上说的向量 。什么image to vector,word to vector 这些,都在说的一件事情就是这类数学转化,不同类型(我们通常称为非结构化数据)的数据最终成为数学上不可区分的高维空间的向量,所谓万类归宗 。线性代数,就是对于这一类高维空间运算做的默认操作模式,可谓上帝的魔术之手 。
因此你要驾驶深度学习这个跑车,线性代数关系你到是否理解发动机的原理 。线性代数核心需要掌握的是线性空间的概念和矩阵的各项基本运算,对于线性组合,线性空间的各类概念,矩阵的各种基本运算,矩阵的正定和特征值等等都要有非常深厚的功力 。概率论:下一个我们需要讲解的是什么呢? 概率论基础。概率论事整个机器学习和深度学习的语言,因为无论是深度学习还是机器学习所做的事情是均是预测未知 。
预测未知你就一定要对付不确定性 。整个人类对不确定性的描述都包含在了概率论里面 。概率论你首先要知道的是关于概率来自频率主义和贝叶斯主义的观点,然后你要了解概率空间这一描述描述不确定事件的工具,在此基础上,熟练掌握各类分布函数描述不同的不确定性 。我们最常用的分布函数是高斯,但是你会发现高斯是数学书里的理想,而真实世界的数据,指数分布和幂函数分布也很重要,不同的分布对机器学习和深度学习的过程会有重要的影响,比如它们影响我们对目标函数和正则方法的设定 。
懂得了这些操作,会对你解决一些竞赛或实战里很难搞定的corner case大有裨益 。一个于概率论非常相关的领域-信息论也是深度学习的必要模块,理解信息论里关于熵,条件熵,交叉熵的理论,有助于帮助我们了解机器学习和深度学习的目标函数的设计,比如交叉熵为什么会是各类分类问题的基础 。微积分:微积分和相关的优化理论算是第三个重要的模块吧,线性代数和概率论可以称得上是深度学习的语言,那微积分和相关的优化理论就是工具了 。
深度学习,用层层迭代的深度网络对非结构数据进行抽象表征,这不是平白过来的,这是优化出来的,用比较通俗的话说就是调参 。整个调参的基础,都在于优化理论,而这又是以多元微积分理论为基础的 。这就是学习微积分也很重要的根源 。优化理论:机器学习里的优化问题,往往是有约束条件的优化,所谓带着镣铐的起舞,因此拉格朗日乘子法就成了你逃不过的魔咒 。
优化理论包含一阶和二阶优化,传统优化理论最核心的是牛顿法和拟牛顿法 。由于机器学习本身的一个重要内容是正则化,优化问题立刻转化为了一个受限优化问题 。这一类的问题,在机器学习里通常要由拉格朗日乘子法解决 。传统模型往往遵循奥卡姆剃刀的最简化原理,能不复杂就不复杂 。而深度学习与传统统计模型的设计理念区别一个本质区别在于,深度模型在初始阶段赋予模型足够大的复杂度,让模型能够适应复杂的场合,而通过加入与问题本身密切相关的约束: 例如全职共享,和一些通用的正则化方法:例如dropout,减少过拟合的风险 。
而正因为这种复杂度,使得优化变得更加困难,主要由于:1,维度灾难,深度学习动辄需要调整几百万的参数,是一个计算量超大的问题 。2,目标函数非凸,具有众多的鞍点和极小值 。我们无法直接应用牛顿法等凸优化中的常见方法,而一般用到一阶优化(梯度下降),这看起来是比支持向量机里的二阶优化简单,然而正是因为缺乏很好的系统理论,边角case变得特别多,反而最终更难 。
推荐阅读
- 做零售业如何发展自己,实体零售业如何发展
- 强推三款家用高档桌面音响,桌面音响推荐
- java学习视频教程,Java基础视频教程
- 公共基础知识重点,公共基础知识的事业单位考试的重点有那些
- 尼康1dx怎么样,尼康的质量到底怎么样
- 营收下滑30.8%,街都新零售怎么样
- 维修电工基础知识,初级电工基础知识
- 镜头知识,关于镜头的基础知识你了解多少
- 0首付分期付款车,零首付分期购车靠谱吗
- 零尾厉害吗?零尾尾兽在十大尾兽里面算老几?
