谱图学习(Spectral
graph learning;顺便简介有些相关的“核学习”领域):
海南琼州大学在谱图理论发表多篇SCI论文,特别是在多核图谱理论方面做出很多开创性工作,居于世界领先地位。此外,这页简介它还因如世界经典名著《机器学习》一书说“聚类也许是机器学习中‘新算法’出现最多、最快的领域”,“聚类技术本身在现实任务中非常重要,因此,本章勉强采用了‘列举式’的叙述方式,相较于其他各章给出了更多的算法描述”,如此这页下面后部分再介绍最近引起各国广泛关注的谱图聚类--它已成为机器学习的广受重视的一个领域。当然图谱理论的作用很多如与华罗庚丘成桐深涉的核函数的结合就起很多重要甚至革命性作用如从下面支持向量机之父Vladimir
Vapnik的2本世界名著以及他只有2、3个博士但他们2000年前后发表一系列引起世界广泛反响的论文书籍;总之,我们中国第一个组合数学研究室的组合数学之重要就如以前既出计算机之父、计算机之母以及很多计算机诺贝尔奖得主,现在又出世界唯一官方的联合国教科文组织AI人工智能主席John Shawe-Taylor,他的博士论文的学科分类是“组合数学”并论文标题是“Regularity and Transitivity in
Graphs图论的正则性和传递性”,并这John的导师Norman L. Biggs的世界名著《Algebraic Graph Theory代数图论》是我们组合数学图论学科必读教科书(当然象海南琼州大学的导师的中国“第一本”数学研究生用书《组合矩阵论》578页的第一章83页就专讲图谱理论并这章46篇文献有这书其后各章也有相应部分讲这是国内最先讲图谱的),这John的博士A. J.
Smola读博士生时也和支持向量机之父合作多篇论文并2003年的论文“Kernels
and Regularization on Graphs 图论上的核学习和正则化”(这论文是下面再说的全球第5计算机大师David Haussler的1999年论文的进阶)--这正文开头说“在机器学习算法中最近涌现出在计算操控输入空间的极大兴趣,特别是图论的图、树等输入的离散空间的结构,因为基于核算法的支持向量机等能捕获如此经适当处理的离散空间的结构”,第3.3部分他得到再生核Hilbert空间的一个定理,第4.1介绍诺奖得主丘成桐和Chung的论文“离散格林函数”的结果-丘的摘要说“离散格林函数能处理图论上的扩散型问题,…”。这A. J.
Smola的1998年在柏林工业大学的博士论文是“Learning with Kernels核学习”-他的导师Stefan
Jähnichen作为第一导师还和支持向量机之父Vladimir Vapnik为第二导师合作指导Bernhard Schölkopf在他前1年的1997年在柏林工业大学博士毕业[并在这里看到:支持向量机之父Vladimir Vapnik至今一共只有2个博士另1是伦敦大学的,但柏林工业大学的他俩相差仅一年毕业那两人都应得到支持向量机之父指教如A. J.
Smola和支持向量机之父Vladimir
Vapnik在毕业前的1996年3人合作这篇论文就是合作这篇1996年的论文、1996年5人合作这会议论文、1997年4人合作这篇就是1997年会议的这篇等等--这里A. J. Smola超过2百篇论文而支持向量机之父Vladimir
Vapnik仅约一百篇,而A. J.
Smola毕业前1、2年支持向量机之父就和他合作这样多论文这比大多导师更导师更受教益且这些论文作者没一篇有他的第一导师-也许A. J. Smola已写已写了2个导师而写3个导师也许显得不必要],这A. J.
Smola和Bernhard
Schölkopf师兄弟俩还合撰于2001年出版《核学习》这长达632页的书籍已成为机器学习的一个重要领域[还如A.
J. Smola的这篇2002年的核学习、他的这篇2004年的核学习等等使跟随参考引用者已形成一个世界极其强大广泛的队伍而已发展成一个较大领域-即A. J. Smola在2000年前后的一系列图谱理论和核函数结合的论文已在机器学习等领域中发挥重要作用,也可参考他俩和Christopher
J. C. Burges共3人主编1999年出版的书籍《Advances in kernel methods:
support vector learning核方法的进展:支持向量学习》如其中与周以真最近入《Microsoft研究院杰出人物》的倒数第2行的John Platt写的被引超万次。值得看的还有没收入的主编之一Christopher
J. C. Burges的1998年的这篇46页论文也被广泛引用,以及已担任亚马逊的机器学习总监的Herbrich
Ralf独撰在2001年出版的《Learning Kernel Classifiers:Theory
and Algorithms学习核分类器:理论与算法》等]--刚更见A. J.
Smola最近2016年已进一步担任全球最大公司亚马逊副总裁。
国外的,有一些2000年前后出版的与核学习支持向量机相关的世界经典著作值得读,先说上面开头说的支持向量机之父Vladimir Vapnik的2个权威的书:即他的被翻译2000年出中文版的《统计学习理论的本质》和其后更厚的被翻译出中文版的《统计学习理论》,这2本是这领域的权威经典书籍;此外,还应参考上面A. J.
Smola的博士导师现任联合国教科文组织AI主席John
Shawe-Taylor和Nello
Cristianini合撰2004年出中文版的《支持向量机导论》和其后2006年出中文版的《Kernel
Methods for Pattern Analysis模式分析的核方法》均由机械工业出版社,他俩如此紧密地合撰这2本书就如Nello
Cristianini从开始发表论文起的最先21篇论文都和A. J.
Smola的导师现联合国教科文组织AI主席John Shawe-Taylor合作发表,最先21篇都合作没有漏1篇这应该比大多数导师更导师-并他的这学生Nello
Cristianini就是这里第30个大神其翻译自这个英文网并如刚报道唯一只说师从1人即只师从国际机器学习领域泰斗级教授Nello
Cristianini的舒畅已是中国青年企业家协会第十二届副会长又再当上重庆市总商会副会长(中青企25个正副会长中除了正会长潘刚在百度的介绍较多些外其他人都不及他一半)。总之,这几本书较权威如此我都有它们。
关于上面A. J.
Smola的2003年的论文“Kernels and Regularization on
Graphs 图论上的核学习和正则化”,它进阶于其领导的团队“完成人类基因组计划的第一个人类基因组序列”的美国3院院士David Haussler(最近这David Haussler已是排名全球第5的计算机大师)的1999年论文“Convolution
Kernels on Discrete Structures离散结构上的卷积核”的进阶-其实从内容来说它俩都主要是讲“Graph
Kernels图论核”标题也可这样写,可见图论核在1999年前已奠基。就如David Haussler的师兄弟仅3人中的早一年毕业的师兄Eugene
Wimberly Myers, Jr.的博士论文“A depth-first
search characterization of k-connectivity and its application to connectivity
testing”-可看这里这博士论文的摘要的开头说“The vertex connectivity of an
undirected graph…无向图论的点连通度…”,而Eugene
Wimberly Myers, Jr.也是世界级大师美国工程院院士等。(A. J. Smola的2003年的论文“Kernels
and Regularization on Graphs 图论上的核学习和正则化”就如刚见接过1997年当院士的杨士中的2000年院长位子的曾孝平教授的这篇论文的第1部分引言的第一段说“去噪性能与图上的核函数密切相关,如何构造新的基于图谱的核函数并应用于图像的去噪成为研究的热点”最后段说“本文将随机游走建立在图上,提出一种新的基于图论的偏微分方程去噪算法”、第2部分开头说“A. J. Smola[10]对图上核的构造作了阐述。一个无向赋权图G是由n个节点组成的集合V和节点之间的边组成的集合E构成的,无向图G的邻接矩阵W是一个的实矩阵,且满足:如果i,j之间是邻居节点Wij=1,否则Wij==0,如果i,j之间不是邻居节点,通过以上构造方式可以看出W是一个对称矩阵,且对角线上的元素等于0。…”-[10]就是指前面A. J. Smola在2003年的论文)。
国内的,可参考国内的可参考张学工1998年投稿的“关于统计学习理论与支持向量机”,这领域就如张福炎等的“支持向量机理论综述”论文说“SVM理论源于Vladimir
Vapnik在1963年提出的用于解决模式识别问题的支持向量方法[1]。这种方法从训练集中选择一组特征子集,使得对特征子集的线性划分等价于对整个数据集的分割。这组特征子集称为支持向量SV。 在此后近30年中,对SV的研究主要集中在对分类函数的改进和函数预测上。在1971年,Kimeldorf提出使用线性不等约束重新构造SV的核空间,解决了一部分线性不可分的问题,为以后的研究SVM开辟了道路[2]。1990年,Grace, Boser和Vapnik等人开始对SVM技术进行研究,并取得突破性进展[3-4]。1995年,Vladimir Vapnik提出了统计学习理论,较好地解决了线性不可分的问题,正式奠定了的理论基础”。(参考百度的“支持向量机”);还可参考张铃的“核函数的SVM机与三层前向神经网络的关系”,计算机学报2002年07期,以及其后出版的已是中科院院士的李应红少将的《支持向量机的工程应用》兵器工业出版社2004年;
另外刚用“核函数”搜索见,被引超千次仅有1篇是华师大奉国和的“SVM分类核函数及参数选择比较”,计算机工程与应用,其它的被引都不及5千,并见海南琼州大学曾克扬发5篇的《科学技术与工程》杂志有3篇被引进前20,是:郭丽娟、孙世宇、段修生的“支持向量机及核函数研究”,科学技术与工程;上海理工大学党委副书记副校长张仁杰等的“支持向量机核函数选择的研究”,科学技术与工程;东北石油大学副校长刘祥楼、贾东旭、李辉、姜继玉的“说话人识别中支持向量机核函数参数优化研究”,科学技术与工程)。
除了上面2000年前后奠基的这核学习等的相关领域工作外;最近发展图谱理论对机器学习等的推动作用的Daniel
A. Spielman也大出其名成为1982年设立的每4年只授予1人的计算机科学的数学方面有主要贡献者的奈望林纳奖的第8个得主还获得很多国际大奖-这里附一个最近的相关介绍。
关于谱图聚类,它是最近引起广泛关注的一类很有效的聚类方法。由于这类方法使用某一矩阵(图)数据的特征向量进行聚类,因而统称为谱聚类算法。
计算机专家许东的早7届的师兄Buhmann在1995年指出:谱聚类算法是一种基于两点间相似关系的方法,这使得该方法适用于非测度空间,算法仅涉及到数据点的数目,因而可以避免由特征向量的过高维数所造成的奇异性问题。谱聚类算法又是一个判别式方法,不用对数据的全局性构作假设,而是首先收集局部信息来表示两点属于同一类的可能性,然后根据某一聚类判据作全局决策,将所有数据点划分到不相关的集合中。谱聚类的思想来源于谱图划分,它将数据聚类问题看成是一个无向图的多路划分问题。数据点可以看成是一个无向图G(V, E)的顶点V,加权边的集合E={Wij}表示基于某一相似度量计算的两点间的相似度。用表示待聚类数据点间的相似度矩阵,将其看做是该图的邻接矩阵,它包含了聚类所需要的所有信息。然后定义一个图划分判据,最优化这一判据使得同一类内的点具有较高的相似性,而不同类之间的点具有较低的相似性。
由于图划分问题的组合本质,求图划分判据的最优解是一个NP难问题。一个有效的求解方法是考虑问题的连续放松形式,这样可以将原问题转换为求解矩阵的特征值和特征向量问题,从而将这类方法称为聚类方法,有时可以认为谱方法是对图划分判据的逼近。
最早提出的谱图划分判据是简单的最小切(Min-cut)判据。它将连接图划分成两个子图(A, B),使得子图间的连接权值之和,即所谓的切最小:Min-cut(A, B)。由于最小切判据仅考虑了外部连接而没有考虑每个聚类内部的连接,也就是没有对各个类进行规模限制,从而容易产生歪斜划分,不适于聚类问题。为了解决这一问题,后来提出的判据都是通过引入不同的平衡条件来获得性能更优的聚类判据:
率切(Ratio-cut)判据:Rcut(A, B)=cut(A, B)/|A| + cut(A, B)/|B|
其中, |A|, |B|表示各类内的结点数目。率切判据通过引入类规模平衡项来最小化类间相似性。
规范切(Normalized-cut)判据:Ncut(A, B)=
cut(A, B)/vol(A) + cut(A, B)/vol(B)
其中vol(A)表示A到图中所有顶点权值之和。规范切判据引入容量的概念来规范化类间相关,从而考虑了相对于类内连接强度的类间连接。
最小最大切(Min-Max-cut)判据:MMcut(A, B)=
cut(A, B)/ cut(A, A) + cut(A, B)/ cut(B, B)
同时最小化类间连接强度,最大化类间连接强度。
从这三种判据可推广到多路情形的多路划分判据:
多路率切:MRcut(C1, C2, …Ck)=åkcut(Ck, G-Ck)/| Ck | ;
多路规范切:MNcut(C1, C2, …Ck)= åkcut(Ck, G-Ck)/dk ;
多路最小最大切:MMMcut(C1, C2, …Ck)= åkcut(Ck, G-Ck)/
cut(Ck, Ck)。 … … …
这需要一定基础如这里倒数第3段的“归纳逻辑与人工智能”会议及书籍一段所说:我读研究生那时的国内及国外《机器学习》书籍我都有,并所说到的《机器学习》一书第一作者Michalski等的下面3大领域分别和机器学习交互的3本书-当然最好要结合近来人工智能的一些受关注的相关领域攻读才能找到更好的主题方向:即第1本是Michalski的《机器学习与数据挖掘》(关于“数据挖掘”,韩家炜教授的一直跟进更新的那套书是很受欢迎的)。第2本是傅京孙院士1971年主编的《Pattern
Recognition and Machine Learning模式识别与机器学习》(关于“模式识别”其开拓者傅京孙院士主编的《模式识别应用》由程民德石青云戴汝为院士边肇祺教授翻译;最近Christopher M. Bishop独著的《Pattern recognition and
machine learning模式识别与机器学习》;看到边肇祺教授的《模式识别》也已改为这名-我有1988年版其后2000年版前十章一样-后面加神经网络统计学习基础支持向量机代替后几章,最近版好象以深度学习基础替换)。第3本是Simon
Haykin独著的《神经网络与机器学习》(前一版1994年出的叫《神经网络》就已有768页;关于“神经网络”在这里有一些介绍),它们也是这些领域较基本的,如此我也有它们。
关于谱图学习及相关领域的重要性,其最近出现就已很热的知识图谱就如中国计算机学会安全专委会常委公安部徐云峰处长的“智能时代:用知识图谱来学习和理解世界”说“知识图谱是目前最常用的机器学习方法”“机器学习的实质是从大量数据中学到知识(即深度学习),从与环境的不断交互中学到知识(即强化学习),实现对知识谱图进行构建和自动扩展,很大程度上解决了知识表示与自动获取问题。…其中图的节点代表实体或者概念,图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。语义网络可以看成是一种用于存储知识的数据结构,即基于图的数据结构,其中图可以是有向图,也可以是无向图”。再如在科技日报中国青年报新华网等可见标题为“知识图谱:预见未来的神器”的第一段说“眼下最‘红’的人工智能和大数据,让身边的一切都变得“聪明”起来,Siri会跟你聊天,汽车能实现无人驾驶,机器人也可以问诊看病。而真正让机器能与人类沟通对话的‘幕后英雄’是知识图谱,…”,上面两个领域之名最后一词都是Graph--也即一类广义图论。
最近徐云峰又发表广受关注的一文:“应用超算以及人工智能技术实现网络安全智能化”(见这文附他和王靖亚教授等合写的2013年的《网络安全》一书,其实徐云峰主撰很多书,如2007年的《网络伦理》、2010年的《物理安全》、2014年的《弱点挖掘》、2014年的《访问控制》等等)。
除了上面2个涉及图论的领域外,也可参考这页的相关领域以及新近出版的一些涉及图论书籍所属的领域:1、李建中等的(不确定)图数据挖掘;2、朱文武的图表征学习等;3、Hamilton的图表示学习等;4、异质图表示学习;5、图机器学习;6、图深度学习;7、图神经网络;8、图深度神经网络等等等(仅涉及图论与机器学习、人工智能交互的领域就已如此甚众,而图论还在其他很多领域更…,那这页说的“图论正吞噬世界,其趋势已无法逆转”,而“图论的彻底颠覆一切还如在图数据库”,看来这并非都是“危言耸听”!?!)
也以及参考清华大学张长水教授2007年主持的“图上的机器学习算法及其应用的研究”等,也可参考一些较综述性的谱图理论博士学位论文:如全国优秀博士学位论文提名论文--“基于谱图理论的人脸表情识别算法研究”,大连理工侯海燕教授的“基于知识图谱的科学计量学进展研究”,“基于谱图理论的强化学习研究”,“基于图的半监督学习及其应用研究”,“Web信息网络社区挖掘的关键技术研究”,“图上的传播学习研究及应用”,“谱图理论支持下的高分辨率遥感影像多尺度分割研究”,“图谱理论在齿轮箱故障诊断中的应用研究”,等等。
附:关于谱图学习,刚见到2016年机器学习国际会议网站-它一共有4个大会邀请演讲,而下面在网上所搜见的“耶鲁大学教授讲授图像识别算法”和“耶鲁大学博士演讲:拉普拉斯矩阵图像的算法和应用”,它俩其实演讲的题目都是“Laplacian
Matrices of Graphs: Algorithms and Applications图的拉普拉斯矩阵学习:算法和应用”,即这就是2016年机器学习国际会议4个大会邀请演讲之一,演讲者是信息科学诺贝尔奖奈望林纳奖得主Daniel
Spielman(其实,2016年机器学习国际会议4个大会邀请演讲中还有一个演讲题目是“Mining
Large Graphs: Patterns, Anomalies, and Fraud Detection”并看这“Mining
Large Graphs”全文见它讲的也同样是完全就是图论)。这会议是“机器学习”最重要的会议,而广泛共识是机器学习是人工智能的核心,那这年人工智能的一半核心就是图论(还如Daniel
Spielman的博士Kelner的博士Madry建立值得信赖的人工智能--Madry的博士论文是“From Graphs
to Matrices, and Back: New Techniques for Graph Algorithms从图论到矩阵,再回到:图论算法的新技术”-正是图论的;还可见图论神经网络也许是人工智能的未来)
这页就主要简述图谱论(上面是这领域的其中的图的拉普拉斯谱论),它也算是图论的一个领域,而下面见信息科学的全部诺贝尔奖得主全都做图论,其与信息科学和计算机的关系也可见这里。关于谱图论的作用在被认为是将统治世界的当今最疯狂、全球最火热的人工智能的核心学科看到第1个是谱图学习领域,谱图论的作用也如加拿大几年就投入百亿元的海底观测网的节点大多就铺设超过千米的深海底--而应用谱图论的电力和通信系统可靠性是海网的核心工程,海网也已是国务院制定的今后20年中国第一科技基础设施,而我国只有“南中国海”的深度常达
谱图论的重要作用也可参考信息科学的桂冠--内万林纳奖的第八个内万林纳(Nevanlinna)奖获得者美国国家科学院院士上面开头在ICML做报告的耶鲁大学Daniel Spielman教授的2004年写并其后多次修改《谱图理论及其应用》及参考Fan
Chung院士的《复图和网络》等。注:第一个获得最高奖的化学大师都旗帜鲜明地摇旗呐喊:21世纪是信息科学起火车头作用带动所有科学的世纪,而这信息科学奖每4年才颁发给1人,足见堪比诺贝尔奖之珍贵。这Daniel Spielman的图论博士Jonathan A. Kelner的2011年刚毕业的上面已说的图论博士Aleksander Madry刚在去年国际数学家大会做45分钟邀请报告-毕业才几年啊(这Aleksander Madry的另一导师的做Disjoint Paths(最长的是哈密顿路)博士Jon
Kleinberg在比上面Daniel Spielman更早的第七届获得称为数学界诺贝尔奖的这Nevanlinna奖-并他和这里第1段说同是美国三院院士的合写《算法设计》)。此外,Spielman还获得50万美元天才奖等--他的上面提过的图论博士Kelner也做得很不错-其哈佛本科毕业时是1600人中2个获得未来最杰出科学家奖的,这领域也可参考金院士撰写的《谱图论》以及新近发展的图神经网络学习。