机器学习

这页简介机器学习：这领域一直至今仍是最权威经典教材的作者就是这页倒数第3段1988年召开的“归纳逻辑与人工智能”论文集共28章的各章参考文献多次出现的以前国外只有的2本机器学习书籍的作者-即他是海南琼州大学师祖叔Tom Mitchell 其后在90年代独撰出版的《机器学习》-我以前曾读完共13章的这书（并Tom Mitchell也是这里倒数第3段说的国内最先2本机器学习书籍:1988年的《机器学习及其应用》和1992年的《机器学习》的作者徐立本的导师并徐的这2本书都说以前国际上只有他这导师的2本机器学习书籍，即在写这世界名著之前Tom Mitchell已和Jaime Carbonell及Ryszard Michalski合作主编1986年的《机器学习》和卷二共2书。最近2004年又出版其中主编Ryszard Michalski的《机器学习与数据挖掘》译本）。其实在这之前因1993年石纯一教授欢迎我去清华大学搞人工智能-如此我也读许多人工智能书并当然也涉及很多机器学习等，因作为人工智能核心的机器学习，是使计算机具有智能的根本途径，即机器学习之研究动机是为了让计算机系统具有人的学习能力以便实现人工智能，如此其应用遍及人工智能的各个领域，也与模式识别、数据挖掘有诸多交叉，它以前主要使用归纳、综合而不是演绎（当然这里我们琼州大学在集成电路商用民用化之初被清华大学邀请参与的集成电路芯片也是推动人工智能技术发展的主要源头技术）。这就如百度百科说“机器学习是一门多领域交叉学科，涉及概率统计学、逼近论、凸分析、算法复杂度理论等多门学科，…”。最近2007年担任广东省政协常委在其后的同年11月19日来信评说我们海南琼州大学“得到重要成果,达到国际领先水平”的图论组合数学专家也是我们海南琼大林越教授的硕士生导师樊教授也主要兼做机器学习 --就如我们中国第一个组合数学研究室之重要如以前既出计算机之父、计算机之母以及很多计算机诺贝尔奖得主，现在又出世界唯一官方的联合国教科文组织AI人工智能主席John Shawe-Taylor）。

机器学习目前已发展成一个广袤的有些神化的学科领域，使人工智能成为当今全球最火热的领域。下面介绍它的其中较流行的约30个重要领域：

1、谱图学习。很受热捧的《机器学习》一书说“聚类也许是机器学习中‘新算法’出现最多、最快的领域”，“聚类技术本身在现实任务中非常重要，因此，本章勉强采用了‘列举式’的叙述方式，相较于其他各章给出了更多的算法描述”，如此这领域介绍其中收到广泛重视的一类很有效的谱聚类，就如“谱聚类”的百度百科说“谱聚类算法建立在海南琼州大学在很多领域曾世界领先的图论中的谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点”，可参考中国科学E见之官网

2、流形学习(Manifold Learning)（流形学习已成为机器学习和数据挖掘领域的研究热点。在百度可见“流形学习方法是模式识别中的基本方法，分为线性流形学习算法和非线性流形学习算法，非线性流形学习算法包括等距映射（Isomap），拉普拉斯特征映射（Laplacian eigenmaps，LE），局部线性嵌入(Locally-linear embedding，LLE)等。而线性方法则是对非线性方法的线性扩展 ”）。所以，这里只说“非线性流形学习算法”-它包括LE(Laplacian eigenmaps即拉普拉斯特征映射)，其基本思想是，用一个无向有权图描述一个流形，然后通过用图的嵌入(graph embedding)来找低维表示。简单来说，就是在保持图的局部邻接关系的情况下，将其图从高维空间中重新画在一个低维空间中(graph drawing)。“基于谱图理论的流形学习算法”，“等谱流形学习算法”等等，附一个小综述，一个博客。在百度“流形学习”的第2篇参考文献-Mikhail Belkin和Partha Niyogi,的Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering有5篇参考文献-并2篇是图论专家Fan Chung Graham--正如这里说他俩的另一篇论文也是引用Fan Chung Graham的文章最多，在人工智能青年专家龚文引的科学网介绍的几十个人工智能牛人中就有Mikhail Belkin和Partha Niyogi这2个人；

3、统计学习领域（由Vladimir Vapnik等提出，著名的统计学习专家有Nancy Reid 等，郁彬是华人中做得较好的一个。当然上面提到的Michael I. Jordan也是主要的统计机器学习的奠基者和推动者，做出突出贡献的统计学习也是被高引论文的专家Larry Wasserman，James O Berger，范剑青的导师 David L Donoho，Robert Tibshirani和Trevor Hastie（2T合写了统计学习基础等5本书在Trevor Hastie的网页可下载，后者和前者的导师高引研究着Bradley Efron大师合撰的一本也可下载，Jerome Friedman院士、S语言的创立者及S语言派生的分支R语言的核心成员John Chambers也是合撰者或参与者，这样的大学也已不在乎出售了），他们的一些公开课；

4、遗传算法(Genetic Algorithms)（近些年来，遗传算法(Genetic Algorithm)变成人工智能领域的最重要分支之一，也如国际人工智能学会主席海南琼大的祖叔Tom Mitchell的经典《机器学习》第9章是遗传算法，而遗传算法之父就是和我们海南琼州大学合作的导师，这里是中国9本数学研究生用书之一的遗传算法一书的简述）；

5、核函数以及核学习（支持向量机之父至今仅有约3个博士并他的2个博士合写《核学习》等核学习著作使跟随引用者已形成一个世界强大广泛的队伍--刚又见其中一人已成为全球第一最大企业的副总裁）；

6、图论神经网络（这是神经网络中最近很火的领域。神经网络已是一个在深度广度都发展得相当大的多学科交叉的学科领域，这里指的是机器学习与神经网络这两个学科交叉的部分-即神经网络学习）；

7-1、贝叶斯网络机器学习-一类图论概率模型学习（由图灵奖得主Judea Pearl发明创造，统计机器学习高引者: Eric Xing(邢波)教授的导师-美国三院院士加大伯克利分校统计人工智能实验室主任Michael I. Jordan也是贝叶斯学习主要奠基人（毕业于哈佛大学的图论专家并获得计算机诺贝尔奖的Richard Karp也是邢波的导师），它是图论概率模型的一类主要分支-是由影响图论没有决策变量演化而来，斯坦福的Daphne Koller最近出本很好的书、做概率图模型的邢波刚获1500万美元风险投资，附贝叶斯网络学习的小综述及一个综述性博士论文）。

7-2、马尔可夫随机场-一类概率图论模型；（可参考斯坦福大学Daphne Koller和Nir Friedman最近出版的《概率图模型原理与技术》，还可参考David Bellot，Luis Enrique Sucar，Ankur Ankan和 Abinash Panda，Christine Sinoquet和Raphaël Mourad，Kiran R Karkera等这5本概率图模型专著）；

8、半监督学习特别是图论半监督学习：给定一个数据集，我们可以映射为一个图，数据集中每个样本对应于图G的一个结点v，若两个样本之间相似度很高（或相关性很强）则对应的结点之间有一条边e，边的的“强度”正比于样本之间的相似度（或相关性），这就对于对图论中的图G(V,E)的研究。看这里可知这是他的博士的获诺贝尔奖的学生世界最多的海南琼州大学师爷叔孕育开创的非常重要的机器学习领域-它在近些年来的国内外权威著作和重要机器学习会议都居于重要位置）

9、强化学习（Reinforcement learning，RL），就象这里最后说：机器学习算法大致可以分为三种：1. 监督学习，2.非监督学习，3. 强化学习，而强化学习可表示为一个有向图；和海南琼州大学合作的师弟徒孙是强化学习之父、权威。

它的下面三者是近二十年来很活跃的分支：

10、条件随机场（Conditional random field）由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型（John Lafferty、Andrew McCallum和2001年的提出条件随机场的论文）；条件随机场入门（一）概率无向图模型；条件随机场(二) (Conditional random field,CRF图模型)；

深度学习的概念由Geoffrey Hinton与他的同事们于2006年提出。但早在1989年Yann LeCun已将反向传播应用于卷积神经网络（CNN），成功用于手写识别，开创了深度学习的先河。附几个综述1、百度的综述2、综述3等）。刚见清华大学计算机系主任朱文武教授等人综述了基于图论的深度学习方法（这仅是基于一篇尚为正式发表的对122篇论文的综述-也有腾讯等转载）：

关于“深度学习”可参考百度的它的“译义”所述：“ 深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。…。

从一个输入中产生一个输出所涉及的计算可以通过一个流向图（flow graph）来表示：流向图是一种能够表示计算的图，在这种图中每一个节点表示一个基本的计算以及一个计算的值，计算的结果被应用到这个节点的子节点的值。考虑这样一个计算集合，它可以被允许在每一个节点和可能的图结构中，并定义了一个函数族。输入节点没有父节点，输出节点没有子节点。

这种流向图的一个特别属性是深度（depth）：从一个输入到一个输出的最长路径的长度”。

我们海南琼州大学以前就做“流向图（flow graph）”。

11、压缩感知（这里第5个给我们海南琼州大学的杂志来信表示支持的诺贝尔奖获得者创造的压缩感知直接催生了人脸认识别的鲁棒主成分分析，除了相关的模式识别、图像处理、医学成像，当然它还应用于其它的很多领域）

12、KNN学习（K近邻学习，附一个小综述）

13、回归学习（附一个小综述）

14、K-Means（附一个小综述，K-means算法是硬聚类算法，图论聚类法也是其中较流行较被认可的）

15、决策树学习（附一个小综述。常用的决策树算法有分类和回归树、ID3 算法、C4.5 算法等）

16、Bagging（集成学习的主要代表之一）

17、Random Forest（随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。是Bagging的一个扩展变体。该分类器最早由Leo Breiman和Adele Cutler提出,，附一个博士论文）

18、PAC学习（概率近似正确学习由哈佛大学诺贝尔获得者Leslie Valiant在1984年提出。由产生了计算学习理论这个机器学习的分支领域。他等提出的VC dimension也使研究无限维假设空间的复杂度成为可能。有限维假设空间）

19、Apriori算法（可看这篇简述文章）

20、增强学习之Q-learning，QL，附一个小综述；

21、稀疏表示（稀疏分解算法首先是由Mallat提出的，也就是匹配追踪算法（Matching Pursuit,MP）算法，附一个小综述）

22、EM算法（最大期望算法由John Tukey的学生Arthur Dempster以及Nan Laird和Donald Rubin提出，附一个小综述）

23、ART网络（竟争型学习）

24、SOM网络（自组织映射网络）

25、SVM方法（支持向量机由Vladimir Vapnik等提出，SVM是一种基于统计学习理论的模式识别方法，主要应用于模式识别领域。附一个小综述）

26、BP学习（多层网络的误差反传back propagation学习算法是由David Rumelhart和James McClelland 提出。多层网络学习能力比单层感知机强得多。感知机由输入和输出两层神经元组成，附一个综述）

27、RBM学习（受限玻尔兹曼机Geoffrey Hinton提出，学深度学习之前一个职院综述）、

28、CNN学习（现任Facebook人工智能实验室主任Lecun等人提出做为深度学习核心的卷积神经网络学习-他说DL的局限是缺乏理论支持、缺乏推理能力、缺乏短时记忆能力、缺乏执行无监督学习的能力，附一个综述）

29、RBF网络学习（径向基函数网络，附一个小综述）

30、LASSO方法（由Robert Tibshirani提出）

31、字典学习（附一个小综述）

31、AdaBoost（boosting算法由 Robert Schapire和Yoav Freund,提出，Adaboost算法是经过调整的Boosting算法，其能够对弱学习得到的弱分类器的错误进行适应性调整，附一个小综述）

32、迁移学习（这里最后段的迁移学习领域开拓者杨强有一个形象比喻“将骑自行车的经验应用在骑摩托车上,就是迁移学习”他们并利用“迁移学习”技术,将大数据训练出的对话模型迁移到具体行业的小数据领域,实现精准的“人机对话”。“第四范式”创始人戴文渊在百度负责名为“凤巢”的广告营销系统期间,利用“迁移学习”将百度搜索算法应用到问答社区“百度知道”,使后者点击率提升4成）、

33、线性学习（线性判别分析）、多分类学习、度量学习、进化算法（遗传算法(Genetic Algorithms)、遗传规划(Genetic Programming)、进化策略(Evolution Strategies)和进化规划(Evolution Programming)四种典型方法。仿生进化算法之蚁群算法及华工郝志峰副校长等的论文）等等。优化算法专家Stephen P. Boyd。

上面从类似的形式或功能角度分类的很多学习可被用于从学习方式分类的监督学习（指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。从标记标签的训练数据来推断一个功能的机器学习任务。常用于解决的问题有分类和回归。常用的算法包括逻辑回归和BP神经网络）或无监督学习（其中图无监督学习特别是图自监督学习以及图神经网络无监督学习已很受重视。其设计分类器时候，用于处理未被分类标记标签的样本集。常用于解决的问题有聚类、降维和关联规则的学习。常用的算法包括 Apriori 算法和 K 均值算法）或半监督学习（半监督学习的输入数据包含带标签和不带标签的样本。半监督学习的情形是，有一个预期中的预测，但模型必须通过学习结构整理数据从而做出预测。常用于解决的问题是分类和回归。常用的算法是所有对无标签数据建模进行预测的算法的延伸）

当然，没有严格的区分或划分，它们很多都是交叉重叠的，当然也还有按相对着来命名的如包含支持向量机的统计学习是相对于归纳学习等其它机器学习方法来说的，

根据方法思想等的类似关系，上面大部分方向可以明确划分为机械式学习、指导式学习、归纳学习、类比学习、解释学习等

我国人工智能主要开拓者陆汝钤院士最近在清华出版的《机器学习》序言抛出六个问题，问题一是符号学习已很长时间来都被统计学习“打压”，他问今后会否出现“30年河东，30年河西”现象，还是啥样的情况？问题二是他同意王珏教授的看法，统计学习不会一路顺风，因统计学习是基于样本数据独立同分布的假设，而“哪有那么多独立同分布”，所以，同分布和异分布之间的迁移学习迟早会出现；问题三是近来出现深度学习等势头很猛，但它们真的代表了机器学习的新方向吗？他和这书的作者等认为“深度学习掀起的热潮也许大过它本身的真正的贡献“，他们的看法很有意思。也许深度学习的应用范围是还有限，但它本身的真正的贡献应是多少？是否尚需要更多认识，但微软、谷歌等等相关国外著名机构和下面国内的百度等都设立专门的深度学习研究院，而

图论在人工智能应用的一些论文：刚见从康大毕业的李开复说他母校的机器学习大神；图谱论大师Cvetković的Man-machine theorem proving in graph theory，这里世界计算机第一名师Blum的儿子的论文Fast planning through planning graph analysis，Blum的师兄Slagle 的2篇An admissible and optimal algorithm for searching AND/OR graphs和 Using rewriting rules for connection graphs to prove theorems ，以及Geng的Fast planning through planning graph analysisO和A recursive method for structural learning of directed acyclic graphs.等等,

再附斯坦福大学吴恩达(Andrew Ng)教授的公开课:机器学习课程、加州理工学院Yaser Abu-Mostafa教授的公开课:机器学习与数据挖掘等等；百度深度学习研究院，蓝凌深度学习研究院，平安科技深度学习研究院等等；微软亚洲研究院博客，李航的一些文章等；可参考Stanford等的网络公开课《机器学习》、《概率图模型》以及《人工智能》等，Trevor Hastie，Robert Tibshirani和Jerome Friedman的著作，刚见由2个数学硕博士和19岁就已是20万年薪的合创fast.ai。

可看前序性的人工智能网页、一些世界权威著作。

超图与机器学习：超图已被广泛用于机器学习中，常作为一种数据结构或一种正则化属性分类器 classifier regularization。 ^[1] 这些应用包括推荐系统 recommender system (社团作为超边)^[2]、图像检索 image retrieval(相关性作为超边) ^[3] 、和生物信息学(生物、化学分子间相互作用作为超边)^[4]。比较典型的超图机器学习方法包括：超图谱聚类法 spectral clustering（用拉普拉斯超图 hypergraph Laplacian 扩展光谱图理论 spectral graph theory）^[5] 和超图半监督学习 semi-supervised learning（通过引入超图结构来对结果进行限定）。^[6]对于大尺寸的超图，可以使用Apache Spark构建的分布式框架^[7]。

[1]Zhou, Dengyong; Huang, Jiayuan; Scholkopf, Bernhard (2006), "Learning with hypergraphs: clustering, classification, and embedding", Advances in Neural Information Processing Systems (2): 1601–1608；

[2]Tan, Shulong; Bu, Jiajun; Chen, Chun; Xu, Bin; Wang, Can; He, Xiaofei (2013), "Using rich social media information for music recommendation via hypergraph model", ACM Transactions on Multimedia Computing, Communications, and Applications (1), Bibcode:2011smma.book..213T

[3] Liu, Qingshan; Huang, Yuchi; Metaxas, Dimitris N. (2013), "Hypergraph with sampling for image retrieval", Pattern Recognition, 44 (10–11): 2255–2262；

[4] Patro, Rob; Kingsoford, Carl (2013), "Predicting protein interactions via parsimonious network history inference", Bioinformatics, 29 (10–11): 237–246

[5]Gao, Tue; Wang, Meng; Zha, Zheng-Jun; Shen, Jialie; Li, Xuelong; Wu, Xindong (2013), "Visual-textual joint relevance learning for tag-based social image search", IEEE Transactions on Image Processing, 22 (1): 363–376,

[6]Tian, Ze; Hwang, TaeHyun; Kuang, Rui (2009), "A hypergraph-based learning algorithm for classifying gene expression and arrayCGH data with prior knowledge", Bioinformatics, 25 (21): 2831–2838,

[7]Huang, Jin; Zhang, Rui; Yu, Jeffrey Xu (2015), "Scalable Hypergraph Learning and Processing", Proceedings of the IEEE International Conference on Data Mining