贝叶斯网：概率论与图论相结合的产物

概率图型模型结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布（它主要包括贝叶斯网络和马尔可夫网络，可参考最近Martin J. Wainwright和Michael I. Jordan合撰的《Graphical Models, Exponential Families, and Variational Inference》-其发表在后者Michael I. Jordan主编的Foundations and Trends in Machine Learning杂志创刊号的第一篇并它长达305页-其与图论的关系正如它的引言开头说“Graphical Models bring together with graph theory and probability theory in a powerful formalism for multivariate statistical modeling”--Michael I. Jordan已是美国三院院士但誉为机器学习之父似乎有点过）：

第一、贝叶斯网络（Bayesian network），也称有向无环图论模型(directed acyclic graphical model)，是一种概率图型模型，它是概率论与图论相结合的产物。清华出版的概率图书籍也说“作为概率论和图论相结合的产物…”。，国内也已有一些有利于深入研读的贝叶斯网络著作（这里有一个英文网站），最近有“概率图模型研究进展综述”“概率图模型学习技术研究进展”等）（参考斯坦福大学Daphne Koller和Nir Friedman最近出版的《概率图模型原理与技术》，还可参考David Bellot，Luis Enrique Sucar，Ankur Ankan和 Abinash Panda，Christine Sinoquet和Raphaël Mourad，Kiran R Karkera等这5本概率图模型专著）

贝叶斯网络是加大洛杉矶分校George Rebane在博士尚未毕业时和该校2011年获得计算机诺贝尔奖的Judea Pearl在1987年的不确定性会议发表的论文“The Recovery of Causal Poly-trees from Statistical Data”中提出。虽然在1987年已提出，但在我国期刊网见我国是自1999年才开始出现这方面论文的（附计算机诺贝尔奖的Judea Pearl最先在1982年提出的置信传播算法(Belief Propagation)，）

这polytree英文网还说上面2人还在上面论文中创造“polytree”--而其实这个概念就是我们图论学科的“有向树”，可见他们创造贝叶斯网络的主要出发点是围绕寻找图论理论做为其创立和发展的理论基础。

贝叶斯网络一方面是用图论的语言直观揭示问题的结构。但就象图论的各分支也有相应理论一样，使这贝叶斯网络另一方面按照概率论的原则对问题的结构加以利用，降低推理的计算复杂度，为解决不确定问题提供了一种直观易懂的方法。最下面3段见贝叶斯网已成功应用于工业、农业、生物、医疗和军事等各个领域，并产生了显著的经济效益和社会效益。因此,对于贝叶斯网的进一步研究具有重要的理论意义和实用价值。

贝叶斯网络是一种图论概率网络，它是基于概率推理的图形化网络，而贝叶斯公式则是这个概率网络的基础。它借由有向无环图(directed acyclic graphs)中得知一组随机变量{X₁,X₂,…X_n}及其n组条件概率分配(conditional probability distributions)的性质

一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，抑或是隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系或是非条件独立的；而节点中变量间若没有箭头相互连接一起的情况就称其随机变量彼此间为条件独立。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)”，另一个是“果(descendants or children)”，两节点就会产生一个条件概率值。比方说,我们以X_i表示第i个节点，而X_i的“因”以P_i表示，X_i的“果”以C_i表示；

大部分的情况下，贝叶斯网络适用在节点的性质是属于离散型的情况下，且依照P(X_i|P_i)此条件概率写出条件概率表(conditional probability table,)，此条件概率表的每一行(row)列出所有可能发生的P_i，每一列(column)列出所有可能发生的X_i，且任一行的概率总和必为1。写出条件概率表后就很容易将事情给条理化，且轻易地得知此贝叶斯网络结构图中各节点间之因果关系；但是条件概率表也有其缺点：若是节点X_i是由很多的“因”所造成的“果”，如此条件概率表就会变得在计算上既复杂又使用不便。

定义：令G = (I,E)表示一个有向无环图(directed acyclic graph, DAG)，其中I代表图形中所有的节点的集合，一般由n个节点X₁, X₂,…X_n组成，每个节点对应一个随机变量。而E代表有向连接线段的集合，且令X = (X_i)_i_∈_I为其有向无环图中的某一节点i所代表之随机变量，若节点X的联合概率分配可以表示成:

P(x)=Õ_i_Î_IP(x_i|x_pa(i))

则称X为相对于一有向无环图G 的贝叶斯网络，其中pa(i)表示节点i之“因”。

对任意的随机变量，其联合分配可由各自的局部条件概率分配相乘而得出：

P(x_i|X₁=x₁,X₂=x₂,…X_n=x_n))= Õ_i₌₁ⁿP(X_i=x_i| X_i+1=x_i+1,…X_n=x_n)

依照上式，我们可以将一贝叶斯网络的联合概率分配写成：

P(X₁=x₁,X₂=x₂,…X_n=x_n))= Õ_i₌₁ⁿP(X_i=x_i| X_j=x_j，对每个相对于变量X_i的“因”变量X_j 而言)

上面两个表示式之差别在于条件概率的部分，在贝叶斯网络中，若已知其“因”变量下，某些节点会与其“因”变量条件独立，只有与“因”变量有关的节点才会有条件概率的存在。

方面图一就是一种典型的贝叶斯网络结构图，依照先前的定义，我们就可以轻易的从图一可以得知：P₂={X₄,X₅},C₂={X₁}, P₄=Æ, C₄={X₂,X₅},=P₁={X₂,X₃}, C₁=Æ.

贝叶斯网络具有如下特性：贝叶斯网络本身是一种不定性因果关联模型。它与其他决策模型不同，它本身是将多元知识图解可视化的一种概率知识表达与推理模型，更为贴切地蕴含了网络节点变量之间的因果关系及条件相关关系；它具有强大的不确定性问题处理能力。贝叶斯网络用条件概率表达各个信息要素之间的相关关系，能在有限的，不完整的，不确定的信息条件下进行学习和推理；它能有效地进行多源信息表达与融合。贝叶斯网络可将故障诊断与维修决策相关的各种信息纳入网络结构中，按节点的方式统一进行处理，能有效地按信息的相关关系进行融合。

贝叶斯网络的Applications（下面照抄已得到公认的来自维基网的“应用”，翻译跟着在下段。从下面3方面看到的应用，可知贝叶斯网络在许多能忽悠的时髦学科领域的应用正方兴未艾）

Bayesian networks are used for modelling knowledge in computational biology and bioinformatics (gene regulatory networks, protein structure, gene expression analysis,^[16] sports betting,^[17][18] learning epistasis from GWAS data sets ^[19]) medicine,^[20] biomonitoring,^[21] document classification, information retrieval,^[22] semantic search,^[23] image processing, data fusion, decision support systems,^[24] engineering, gaming and law.^[25][26][27]

1、维基网上总结的“应用”：贝叶斯网络已应用在模拟计算生物学 (modelling knowledge in computational biology)与生物信息学(bioinformatics)、基因调控网络(gene regulatory networks)、蛋白质结构(protein structure)、基因表达分析(gene expression analysis)、体育博彩（sports betting）、全基因组关联研究数据集的学习的异位显性（learning epistasis from GWAS data sets）、海洋生物功能基因分析（functional gene analysis of Marine Biology）、医学(medicine)、文件分类(document classification)、信息检索(information retrieval)、语义检索（semantic search）、图像处理（image processing）、数据融合（data fusion）、决策支持系统(decision support systems)、工程学(engineering)、游戏与法律(gaming and law)

2、在我国期刊网上看到的应用：如清华大学校长陈吉宁的《水质污染事故风险评估》--及船舶等某些海上交通风险应用。

3、我在国外相关文献看到它还在下面领域有应用：区域护林决策支持（Haas,1992），渔业资源管理（Danny C. Lee , Bruce , E. Rieman, 1997），人类利用土地与野生鱼类数量及栖息地的关系（Borsuk, Stow, Reckhow, 2002）；水库资源管理决策（Said, Stevens, Sehlke, 2001），农业土地管理和水资源管理（Cain, Jinapala, Makin, Somaratna, Ariyaratna, Perera, 2003），土壤腐蚀预测（Hojsgaard, Rasmussen, Djurhuus, 2003），等等。此外，还有许多应用以及也将肯定可拓展出它在其它领域的新应用）

关于贝叶斯网络，已有好几本中文书籍。相关的中文期刊论文也已有大约300篇，可见期刊网。

第二、马尔可夫网络（Markov network）：它是关于一组有马尔可夫性质随机变量X的全联合概率分布模型（这马尔可夫网络和我这个网介绍的贝叶斯网络是基本的概率图模型-即用图论方法以表现数个独立随机变量之关系的一种建模法。清华出版的概率图书籍也说“作为概率论和图论相结合的产物…”。下面定义基于的无向图就是图论通常所指的图；另一类是有向图，其理论方法技术等可从无向图类推）（参考斯坦福大学Daphne Koller和Nir Friedman最近出版的《概率图模型原理与技术》，还可参考David Bellot，Luis Enrique Sucar，Ankur Ankan和 Abinash Panda，Christine Sinoquet和Raphaël Mourad，Kiran R Karkera等这5本概率图模型专著）

马尔可夫网络类似贝叶斯网络用于表示依赖关系。但是，一方面它可以表示贝叶斯网络无法表示的一些依赖关系，如循环依赖；另一方面，它不能表示贝叶斯网络能够表示的某些关系，如推导关系。马尔可夫网络的原型是易辛模型，最初是用来说明该模型的基本假设。

定义：形式上，一个马尔可夫网络包括：

一个无向图 G = (V,E)，每个顶点 v ∈V 表示一个在集合X的随机变量，每条边 {u,v}∈E 表示随机变量u 和 v之间的一种依赖关系。
一个函数集合 f_k（也称为因子或者 团因子 有时也称为特征），每一个 f_k的定义域是图G的团或子团k. 每一个 f_k是从可能的特定联合的指派（到元素k）到非负实数的映射。

联合分布（吉布斯测度）用马尔可夫网络可以表示为：

P(X=x)= (1/Z)Õ_kf_k (x_{k})

其中x=x_{1}x_{2}x_{{3} …}是向量，x_{k}= x_{k,1}x_{k,2}…x_{k,3|ck|}是随机变量x在第k个团的状态（|c_k|是在第k个团中包含的节点数。），乘积包括了图中的所有团。注意马尔可夫性质在团内的节点存在，在团之间是不存在依赖关系的。这里，Z是配分函数，有 Z=∑_x_Î_XÕ_kf_k (x_{k}).

实际上，马尔可夫网联络经常表示为对数线性模型。通过引入特征函数Ф_k，得到f_k=exp(w_k^ТФ_k(x_{k}))

和 P(X=x)= (1/Z) exp(∑_kw_k^ТФ_k(x_{k}))

以及划分函数

Z=∑_x_Î_X exp(∑_kw_k^ТФ_k(x_{k}))。

其中，w_k是权重，Ф_k是势函数，映射团到实数。这些函数有时亦称为吉布斯势；术语势源于物理，通常从字面上理解为在临近位置产生的势能。

对数线性模型是对势能的一种便捷的解释方式。一个这样的模型可以简约的表示很多分布，特别是在领域很大的时候。另一方面，负的似然函数是凸函数也带来便利。但是即便对数线性的马尔可夫网络似然函数是凸函数，计算似然函数的梯度仍旧需要模型推理，而这样的推理通常是难以计算的。

马尔可夫性质

马尔可夫网络有这样的马尔可夫性质：图的顶点u在状态X_u的概率只依赖顶点u的最近临节点，并且顶点u对图中的其他任何节点是条件独立的。该性质表示为

P(X_u= x_u | X_v, v¹u)= P(X_u= x_u | X_v, vÎN_u)

顶点u的最近临节点集合N_u 也称为顶点u的马尔可夫。

由于马尔可夫网络不断的改进发展完善和不断产生许多重要作用,最近,许多类型的马尔可夫网络也已被提出，例如混合记忆马尔可夫模型和因式化隐马尔可夫模型

关于马尔可夫网络，相关的中文期刊论文可见期刊网，如计算机学报的《具有丢失数据的可分解马尔可夫网络结构学习》，特别是在《中文信息学报》发表了“信息检索”应用方面的系列论文，作者虽不是来自名牌大学但获得中国中文信息学会2012年度学会唯一工作优秀奖

参考马尔可夫随机场--一种概率图模型（维基网Markov random field）

应结合参考这里的这里的随机网络，这里的马尔可夫模型理论等