潜在狄利克雷分配模型（Latent Dirichlet AllocationModel，也称为隐含狄利克雷分布模型），是一种主题模型（topic model），由Michael I. Jordan迈克尔·欧文·乔丹及其他的2个博士David M. Blei、Andrew Y. Ng于最近2003年提出，是一类无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可，在机器学习的一些领域也有应用。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。它可以将文档集中每篇文档的主题按照概率分布的形式给出。广泛应用于文本挖掘、文档分类、推荐系统等自然语言处理任务中。

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

另外，正如Beta分布是二项式分布的共轭先验概率分布，狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的，在LDA模型中一篇文档生成的方式如下:

从狄利克雷分布中取样生成文档i的主题分布

从主题的多项式分布中取样生成文档i第j个词的主题

从狄利克雷分布中取样生成主题的词语分布

从词语的多项式分布中采样最终生成词语

因此整个模型中所有可见变量以及隐藏变量的联合分布是

最终一篇文档的单词分布的最大似然估计可以通过将上式的{\displaystyle \theta _{i}}以及{\displaystyle \Phi }进行积分和对{\displaystyle z_{i}}进行求和得到

根据的最大似然估计，最终可以通过吉布斯采样等方法估计出模型中的参数。

求解

变分贝叶斯估计（variational Bayesian inference）

LDA在提出之初，被设计为使用变分贝叶斯估计，即变分贝叶斯EM进行求解。

马尔可夫链蒙特卡罗（Markov chain Monte Carlo, MCMC）

LDA可以使用MCMC中常见的使用吉布斯采样（Gibbs Sampling）算法进行求解，其过程如下：

首先对所有文档中的所有词遍历一遍，为其都随机分配一个主题，即zm,n=k~Mult(1/K),其中m表示第m篇文档，n表示文档中的第n个词，k表示主题，K表示主题的总数，之后将对应的nm+1, nm+1, nk+1, nk+1, 他们分别表示在m文档中k主题出现的次数，m文档中主题数量的和，k主题对应的t词的次数，k主题对应的总词数。

之后对下述操作进行重复迭代。

对所有文档中的所有词进行遍历，假如当前文档m的词t对应主题为k，则nm-1, nm-1, nk-1, nk-1, 即先拿出当前词，之后根据LDA中topic sample的概率分布sample出新的主题，在对应的nm, nm, nk, nk上分别+1。

迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ。

参考D.M. Blei, A.Y. Ng, and M.I. Jordan, Latent dirichlet allocation. Journal of machine Learning research, 2003. 3(Jan),2003，pp.993-1022.

与图论组合数学相关的最近体现出强劲活力的一些学科领域和重要的工具：

第1、和海南琼州大学合作的L. W. Beineke的导师之一的遗传算法之父John Holland的世界名著《自然与人工系统中的适应》（正如“前言”说“本书假定读者对P和组合数学比较熟悉”--显然遗传的过程也是适应的过程-遗传算法可叫做适应程序-它92版说“学习遗传算法几十年来一直被排斥在主流人工智能之外，然而此时却被认为是智能研究的一个关键点”。这Holland也是哈密顿图大师Stephen Hedetniemi的导师），我也有Holland的博士Bernard Zeigler撰写的“建模与仿真”的系列著作，Z的博士Andrew Barto和B的公认是强化学习之父的博士Richard Sutton合写《强化学习导引》（即这3个领域的他们的书我都有。关于强化学习，这里说18岁清华毕业的王梦迪即在MGP见2013年才毕业的Mengdi Wang王梦迪已居他导师的4个著名博士之列-她现任职普林斯顿大学并最近做“增强学习是人工智能的未来”演讲。她说“现在包括我在内的很多做人工智能的朋友，最感兴趣的是增强学习。增强学习是人工智能的未来，为什么会这么说？…”（正如《麻省理工技术评论》在“深度学习时代行将结束”一文总结说发现了三个主要的变化趋势：20 世纪 90 年代末到 21 世纪初，机器学习开始萌芽，从 21 世纪 10 年代初开始经历神经网络的加速普及，以及在过去的几年迎来了强化学习的增长）--可参看王梦迪的导师正在写的强化学习书籍和在ASU讲这课视频-曾写了著名的凸优化。强化学习及图论有如此地位是因人工智能的核心是机器学习，而机器学习算法大致可以分为三种：1. 监督学习，2非监督学习，3. 强化学习，并其与图论的关系即如强化学习通常建模为一个有向图，这个有向图具有节点和边的状态,可以描述马尔科夫状态之间的转变-可参考《摄动马尔可夫决策与哈密尔顿圈》）

第2、北京大学袁崇义教授是中国计算机学会Petri网专委会主席。因此，很高兴有幸得到“中国最早进行Petri网研究的著名权威学者-北京大学袁崇义教授”在90年代出版他的名著《Petri网原理》之时就赠送给我-这中国第一大师并在封2写上“赵克文老师指正”，其实我只有学习的份（我们知道：“Petri网是一个有向二分图”，而看3个世界哈密顿图专家合撰的“二分图”专著可知哈密顿图和图论的广泛重要作用。Petri网之重要，也如和美国加州大学金兰教授合作指导清华大学计算机系第一位博士生何敬民的卢开澄教授的《图论及其应用》教材第2版序说“图论没有理由将Petri网拒之门外”。Petri网也对软件设计、操作系统、人工智能、集成电路、无线通信、地理信息系统、遥感等都有重要作用。就如当时图论对集成电路也很关键-如此复旦大学管校长90年代也期望我去复旦…）

关于复旦管校长，下面第5可知他是中国图论界当时唯一被国际认可的大师，并已被欧美澳洲著名大学聘邀为全职教授；关于北大袁教授，要知他1988年创立的中国Petri网研究会，不久后的1991年就被通过成为中国计算机学会Petri网专委会。因当时中国计算机学会也没有几个专委会，可见它当时在计算机居重要地位（因当时可不象现在有这页最下面的传感器网络、云计算、大数据等等现在很热闹的领域），如此，当时能得到计算机重要学科之一的中国开山鼻祖袁教授的来信指导，是很难得的。虽1984年前发表Petri网论文的还有一人，但此人1992年后就不再发表任何论文，而袁教授1982年做为中科院研究员成为我国首批去跟Petri教授学习的且其后长期做为Petri网专委会领导为其在中国的发展可算居功至伟）

第3、简介一些常用的著名智能优化算法：蚁群优化算法（此算法的最初来源正如维基网第1、2行说“solving computational problems which can be reduced to finding good paths through graphs”，第行说“the first algorithm was aiming to search for an optimal path in a graph”。意思都是创造此算法是为了”发现或说搜寻最优哈密尔顿路”）；人工神经网络（正如Hecht-Nielsen 定义是“人工神经网络是由人工建立的有以有向图为…”)；图论聚类算法（聚类算法的主要类别）；遗传算法（由上面哈密尔顿图大师Hedetniemi的导师开创）。

上面原先为解决哈密尔顿路等的算法已拓展应用到计算机、工程技术、管理决策等上。在图论某些方面还有许多著名算法，如最短路方面由被学术界称为“结构程序设计之父”和“先知先觉”的Dijkstra的最短路算法,另一图灵奖获得者Floyd也创立另一最短路算法。这2个算法虽也不同程度已作用于计算机、工程技术、管理决策等学科，如D和 F这2种算法已用于第一段说到的地理信息系统，再如Dijkstra算法还可用于遥感等等(如地理信息系统和遥感专家龚健雅院士的Dijkstra最短路算法论文就被广泛引用)。不过，它俩仍不如上一段哈密尔顿路等的算法的作用广泛和重要。图论的最小生成树的Kruskal算法和Prim算法就应用于遥感，正如这论文说地理信息系统网络分析的有力工具是图论（Kruskal算法是避圈法，上面90年代要我去的复旦管校长和欧洲组合学杂志创刊主编Rosenstiehl的是破圈法）

再关于地理信息系统，一些大师认为：“Voronoi图是动态地理信息系统的唯一解决方案”，如美国科学院唯一地理信息科学院士、地理信息科学之父Michael F.Goodchild在1997年的“国际地理信息科学”上撰文指出“地理信息系统的研究需要发展一种基于度量的空间数据结构…，在独特的（海洋）采样数据空间内，需要一个适当的内插方法，我们发现，Gold和Condal（1995）的Voronoi图方法是这唯一的尝试”。（虽然Voronoi图和图论存在诸多不同，特别是2阶以后比较抽象，这是发展缓慢的原因之一，但通过抽象图论的某些相近理论，应该可有所突破），地图学家钟业勋教授说他是亚洲第一位国际地图学协会副主席胡毓钜教授在著作《地图代数》的序说“地理信息系统及其可视化理论上的滞后已见端倪…，因此，人们迫切需求一种新的理论与技术基础。地图代数经历十余年的研究与试验，在地理空间分析和可视化理论与技术方面提出了新的模式，通过大量试验，证实了这一体系的可行性，摆脱了原有模式的多种局限性”，这2002年完成的《地图代数》专著，并主持《地理信息系统》国家精品课的是胡鹏教授，可见什么对摆脱“地理信息系统”的滞后是“可行性”，此书和他的另一《障碍空间最路径的地图代数解法》的很多算法方法理论都来自图论。图论各方面的算法还有很多如中国科学院大学高随祥校长独著的《图论与网络流理论》的最优邮路的方法一是管校长的，第二个方法是Edmonds-Johnson算法（高随祥校长的此书只有一个中国人的理论结果。几乎60年代末以后出版的世界各国的图论教材都要取用管校长的理论-可见利害）。上面几个算法是比较著名的（见普林斯顿大学计算机系1985年创系主任Sedgewick的《C算法-图算法》、《C++算法-图算法》、《Java算法-图算法》）

第4、层次分析法（它的创立者是Thomas Saaty院士，在很多网都介绍说他写了30多本书和300多篇论文，介绍的他做的学科中第一个为Their subjects include graph theory and its applications-即图论及其应用）。这里见很多研究生论文综合层次分析法和模糊综合评价发展出新的被引用很高的方法.

第5、压缩感知（它基于2004年图论组合数学函数分析数论专家-数学诺贝尔奖获得者陶哲轩和范剑青的导师Donoho及师弟Candès的工作而建立发展起的， Justin Romberg也是参与者，这是陶哲轩撰写的压缩感知领域的第一篇论文（智商远超过爱因斯坦-成为历史上最聪明的陶哲轩写这篇论文后的第2年我就给他去信求稿，他给我们琼州大学回信答应我有这方面合适我的杂志的稿件会投给我，不久，压缩感知也被美国科技评论评为年度十大科技进展-如它在信息论、图像处理、地球科学、光学、无线通信、微波成像、模式识别、大气、地质等领域受到高度关注）

第6、复杂社会系统、社会网络计算：这领域与复杂网络密切,它是复杂网络系统等理论方法在人类在了解自然和自身的过程中应用和拓展（哈密顿图大师Stephen Hedetniemi的上面导师John Holland是复杂理论和非线性科学的先驱），也可参考相关的复杂适应系统。

第7、关于无线电的一些发展,这里有一篇文章“从软件无线电到认知无线电,走向终极无线电”.而关于“软件无线电”（这见软件无线电，被视为通信领域的第三次革命。第一次是：从固定通信到移动通信；第二次是：从模拟通信到数字通信）→关于”认知无线电”（IEEE标准化组织认为:认知无线电是未来无线通信领域的“下一个大事件”, 其概念起源于1999年美国斯蒂文斯工学院副校长Joseph Mitola教授）。其实，还能忽悠“认知软件无线电”（认知无线电是无线通信的一个重要发展方向，可以看作是“头脑发达”、“会观察、会思考、会学习、会决策”的无线电，而软件无线电可以看作是“手脚灵便”、“服从指令”的无线电。认知软件无线电是软件无线电的智能化演进，既“头脑发达”又“手脚灵便”，能够更好地随机应变、自主学习优化以达到预期目标，更好地应对复杂的无线通信环境）。

第8、做为一个综合计算、网络和物理环境的多维复杂系统的下一代智能系统-信息物理融合系统(CPS)，最近2006年2月美国科学院发布的《美国竞争力计划》将CPS列为重要的研究项目。2007年7月，美国总统科学技术顾问委员会在题为《挑战下的领先---竞争世界中的信息技术研发》的报告中列出了八大关键的信息技术，其中CPS就位列首位。CPS是一个具有控制属性的网络，但它又有别于现有的控制系统（现有的控制系统基本是封闭的系统，即便其中一些工控应用网络也具有联网和通信的功能，但其工控网络内部总线大都使用的都是工业控制总线，网络内部各个独立的子系统或者说设备难以通过开放总线或者互联网进行互联，而且，通信的功能比较弱。而CPS则把通信放在与计算和控制同等地位上）。CPS的意义在于将物理设备联网，特别是连接到互联网上，使得物理设备具有计算、通信、精确控制、远程协调和自治等五大功能。正如美国国家科学基金会认为，CPS将让整个世界互联起来。“如同互联网改变了人与人的互动一样，CPS将会改变我们与物理世界的互动。

关于CPS与这里最后的传感器网络、物联网和“工业4.0”的关系，可以说传感器网络可视为CPS的一部分（因传感器网络一般仅局限于局部地区信息的收集，需要布置大量的传感器节点，感测的数据通过无线多跳的形式传输到汇聚节点，汇聚节点对数据进行显示和处理，供专门的用户使用，形成一个封闭的专有网络。主要目的是将物理环境的信息传递给人）；物联网可以看作CPS的一种简约应用（因物联网试图打破传感器网络的封闭，通过将所有物体连接到互联网，从而形成一个全球互联的网络，实现跨地域的信息感知、传递、共享。也就是采用标准化的体系和技术，将底层的各个专用的传感器网络感知的信息进行远距离传输和共享）。最近在德国冒出的“工业4.0”概念即是以智能制造为主导的第四次工业革命。该战略就是旨在通过充分利用信息通讯技术和网络空间虚拟系统--信息物理融合系统相结合的手段，将制造业向智能化转型。

第9、牛顿和爱因斯坦等大师在潮流方面的奠基工作。

第10、多元样条与离散数学相关的交叉学科和问题研究进展，可看离散数学中样条方法的某些研究，超立方体切面中的样条方法等等（它是函数逼近的重要领域，这学科还是人工智能机器学习的重要基础）

第11、纳米科学在90年代我要做集成电路时已接触之-见这页集成电路的一些连接，这也可看出些二十一世纪三大尖端技术是(基因工程、纳米科学、人工智能)。最近，以美国领头诞生并蔓延世界的纳米网络又标志纳米技术进入新的又一成熟阶段，并已掀起一些热潮--但迄今世界上只研究和初步构造陆地纳米传感网络--如此我们海南琼州大学世界首创这个项目：海南省重大项目海洋纳米传感网络申请书（似乎国内和国外都还尚没有太多的研究进展-确实纳米传感网的海洋通信是一个非常难突破的特大难题）-即特懊恼海洋存在不同于陆地的通信等某些难于克服的技术问题-这需要做非常的攻关。可参看琼南科学中心的其它更多世界领域