潜在狄利克雷分配模型(Latent Dirichlet
AllocationModel,也称为隐含狄利克雷分布模型),是一种主题模型(topic model),由Michael I. Jordan迈克尔·欧文·乔丹及其他的2个博士David M. Blei、Andrew Y. Ng于最近2003年提出,是一类无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可,在机器学习的一些领域也有应用。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。它可以将文档集中每篇文档的主题按照概率分布的形式给出。广泛应用于文本挖掘、文档分类、推荐系统等自然语言处理任务中 。
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:
从狄利克雷分布中取样生成文档i的主题分布
从主题的多项式分布中取样生成文档i第j个词的主题
从狄利克雷分布中取样生成主题的词语分布
从词语的多项式分布中采样最终生成词语
因此整个模型中所有可见变量以及隐藏变量的联合分布是
最终一篇文档的单词分布的最大似然估计可以通过将上式的{\displaystyle \theta _{i}}以及{\displaystyle \Phi }进行积分和对{\displaystyle z_{i}}进行求和得到
根据的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。
求解
变分贝叶斯估计(variational Bayesian inference)
LDA在提出之初,被设计为使用变分贝叶斯估计,即变分贝叶斯EM进行求解。
马尔可夫链蒙特卡罗(Markov chain Monte Carlo, MCMC)
LDA可以使用MCMC中常见的使用吉布斯采样(Gibbs Sampling)算法进行求解,其过程如下:
首先对所有文档中的所有词遍历一遍,为其都随机分配一个主题,即zm,n=k~Mult(1/K),其中m表示第m篇文档,n表示文档中的第n个词,k表示主题,K表示主题的总数,之后将对应的nm+1, nm+1, nk+1, nk+1, 他们分别表示在m文档中k主题出现的次数,m文档中主题数量的和,k主题对应的t词的次数,k主题对应的总词数。
之后对下述操作进行重复迭代。
对所有文档中的所有词进行遍历,假如当前文档m的词t对应主题为k,则nm-1, nm-1, nk-1, nk-1, 即先拿出当前词,之后根据LDA中topic sample的概率分布sample出新的主题,在对应的nm, nm, nk, nk上分别+1。
迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ。
参考D.M. Blei, A.Y. Ng, and M.I. Jordan, Latent
dirichlet allocation. Journal of machine
Learning research, 2003. 3(Jan),2003,pp.993-1022.
与图论组合数学相关的最近体现出强劲活力的一些学科领域和重要的工具:
第1、和海南琼州大学合作的L. W. Beineke的导师之一的遗传算法之父John Holland的世界名著《自然与人工系统中的适应》(正如“前言”说“本书假定读者对P和组合数学比较熟悉”--显然遗传的过程也是适应的过程-遗传算法可叫做适应程序-它92版说“学习遗传算法几十年来一直被排斥在主流人工智能之外,然而此时却被认为是智能研究的一个关键点”。这Holland也是哈密顿图大师Stephen Hedetniemi的导师),我也有Holland的博士Bernard Zeigler撰写的“建模与仿真”的系列著作,Z的博士Andrew Barto和B的公认是强化学习之父的博士Richard Sutton合写《强化学习导引》(即这3个领域的他们的书我都有。关于强化学习,这里说18岁清华毕业的王梦迪即在MGP见2013年才毕业的Mengdi Wang王梦迪已居他导师的4个著名博士之列-她现任职普林斯顿大学并最近做“增强学习是人工智能的未来”演讲。她说“现在包括我在内的很多做人工智能的朋友,最感兴趣的是增强学习。增强学习是人工智能的未来,为什么会这么说?…”(正如《麻省理工技术评论》在“深度学习时代行将结束”一文总结说发现了三个主要的变化趋势:20
世纪 90 年代末到 21
世纪初,机器学习开始萌芽,从
21 世纪 10 年代初开始经历神经网络的加速普及,以及在过去的几年迎来了强化学习的增长)--可参看王梦迪的导师正在写的强化学习书籍和在ASU讲这课视频-曾写了著名的凸优化。强化学习及图论有如此地位是因人工智能的核心是机器学习,而机器学习算法大致可以分为三种:1. 监督学习,2非监督学习,3. 强化学习,并其与图论的关系即如强化学习通常建模为一个有向图,这个有向图具有节点和边的状态,可以描述马尔科夫状态之间的转变-可参考《摄动马尔可夫决策与哈密尔顿圈》)
第2、北京大学袁崇义教授是中国计算机学会Petri网专委会主席。因此,很高兴有幸得到“中国最早进行Petri网研究的著名权威学者-北京大学袁崇义教授”在90年代出版他的名著《Petri网原理》之时就赠送给我-这中国第一大师并在封2写上“赵克文老师指正”,其实我只有学习的份(我们知道:“Petri网是一个有向二分图”,而看3个世界哈密顿图专家合撰的“二分图”专著可知哈密顿图和图论的广泛重要作用。Petri网之重要,也如和美国加州大学金兰教授合作指导清华大学计算机系第一位博士生何敬民的卢开澄教授的《图论及其应用》教材第2版序说“图论没有理由将Petri网拒之门外”。Petri网也对软件设计、操作系统、人工智能、集成电路、无线通信、地理信息系统、遥感等都有重要作用。就如当时图论对集成电路也很关键-如此复旦大学管校长90年代也期望我去复旦…)
关于CPS与这里最后的传感器网络、物联网和“工业4.0”的关系,可以说传感器网络可视为CPS的一部分(因传感器网络一般仅局限于局部地区信息的收集,需要布置大量的传感器节点,感测的数据通过无线多跳的形式传输到汇聚节点,汇聚节点对数据进行显示和处理,供专门的用户使用,形成一个封闭的专有网络。主要目的是将物理环境的信息传递给人);物联网可以看作CPS的一种简约应用(因物联网试图打破传感器网络的封闭,通过将所有物体连接到互联网,从而形成一个全球互联的网络,实现跨地域的信息感知、传递、共享。也就是采用标准化的体系和技术,将底层的各个专用的传感器网络感知的信息进行远距离传输和共享)。最近在德国冒出的“工业
第11、纳米科学在90年代我要做集成电路时已接触之-见这页集成电路的一些连接,这也可看出些二十一世纪三大尖端技术是(基因工程、纳米科学、人工智能)。最近,以美国领头诞生并蔓延世界的纳米网络又标志纳米技术进入新的又一成熟阶段,并已掀起一些热潮--但迄今世界上只研究和初步构造陆地纳米传感网络--如此我们海南琼州大学世界首创这个项目:海南省重大项目海洋纳米传感网络申请书(似乎国内和国外都还尚没有太多的研究进展-确实纳米传感网的海洋通信是一个非常难突破的特大难题)-即特懊恼海洋存在不同于陆地的通信等某些难于克服的技术问题-这需要做非常的攻关。