和中国人民大学正副校长一起担任国家研究院院长的聂辉华说2012年2人获得诺贝尔经济学奖是因发展匹配理论(其作用也如看Michael Krivelevich教授去年2011年发表在全球数学界最顶级的JAMS杂志的“Hamiltonicity
game哈密顿图性博弈论文”,其实,2010年3人也因匹配理论及应用在劳动力市场搜寻等的突出贡献,而共同获得2010年诺贝尔经济学奖,其作用也如看Dan Hefetz教授这之前的2009年发表的“Hamiltonian
cycle game哈密顿圈博弈论文”,足见“匹配理论”了不得吧!。聂辉华的这院的院长和执行院长是该正副校长,聂辉华在跟美国哈佛大学经济学系诺奖得主做的博士后、以及他本科硕士和获得全国百篇优秀博士论文的学习工作都是纯经济学的,看来经济学大都已企求出身于纯数学的匹配理论。即匹配理论本是我们琼州大学在这里第9节做了许多世界领先论文的图论的一个领域,就如这篇文章说“匹配理论首先来自Gale和Shapley的一个数学成果。现在,由于Shapley和Roth获得了2012年度的诺贝尔经济学奖,该成果被更多人知道。….数学上称一些点以及连接这些点的边所组成的网格系统为一个图,…两条边被称为独立的是指它们没有公共的端点,由图的一些两两独立的边所组成的集合称为该图的匹配…”,正如Shapley获诺奖时说“我认为我自己是数学家,而这个奖项是颁给经济学者的。我在我的一生中,从来没有上过一节经济学课程”-即在世界各大网见他说“I
consider myself a mathematician and the award is for economics. I never, never
in my life took a course in economics”,另一创立者Gale在我们离散应用数学杂志的匹配理论论文也很重要;博士论文正是研究它的1991年在数学社会科学杂志也用二分图论探索它,其后再用图论探索;刚见任经济和工业会议第一委员主席的Cechlárová已发表60篇的近些年的论文是用图论探索它的;Cheng这十年来也已发表多篇用图论探索的论文;博弈与经济行为杂志这篇也不错,这篇在组合论杂志用有向图处理的论文说感谢计算机鼻祖Knuth,等等。我在欧洲数学会杂志评论其论文的图论大师Lovász主席就撰写有世界名著《匹配理论》即《Matching
Theory》,特别是,来信评价我们琼州大学取得了“国际先进水平”的“一系列创造性成果”的国际知名图论学家林诒勋教授不仅在GL领域排名世界第3也还是我国匹配理论第一权威(如林教授2000年指导的这篇匹配理论博士论文、这篇博士论文、这篇博士论文都是林教授2000年一年内一个人指导出的匹配理论博士论文。林诒勋教授1964年已对A.W.Tucker和A.J.Goldman的线性规划理论独辟蹊径做出突出性研究,看这里见这A.W. Tucker就是开创博弈论而获诺贝尔经济奖的纳什和上面Gale和Shapley的博士导师。A.W.Tucker的第7个博士Parsons就是我们哈密顿图大师,Parsons的著名哈密顿图论文有论文1、论文2、论文3、论文4、论文5、论文6、论文7、论文8、论文9、论文10、论文11、论文12以及和Faudree校长合作的12等等都是很重要的哈密顿图论文,不仅A.W.Tucker写纪念Parsons文章、诺贝尔奖得主Paul Erdős大师的纪念说Parsons的逝世是数学界很大的损失、图论之父Frank Harary也给他写纪念文章,等等都写于顶级杂志,足见这只有20多篇期刊论文的哈密顿图大师够厉害-也足见哈密顿图之艰难。其实,A.W.Tucker只有11个博士-而和Parsons的博士论文一样都是做纯图论的还有第4个Maurer和第9个Singleton等;此外,正如维基网等说Albert
W.Tucker 的儿子Alan Tucker和Thomas
W. Tucker 也是职业数学家,更在维基网看他2个儿子Alan Tucker和Thomas W. Tucker见都是图论专家),如此本页的介绍主要做两点:①先介绍博弈论基本概念和一些关键理论,而最近“诺贝尔经济学奖获得者丛书”一共只选4本博弈论方面的-其中最权威的2本是我们琼州大学的师叔爷的徒孙的,如此,主要基于这2书介绍博弈论;②其后给出上面两个诺贝尔奖获得者各一篇最天才的工作(关于上面林诒勋教授和A.W.Tucker的线性规划方面的工作,推荐琼州大学为海南最高奖的上海市学位办主任的线性规划的最后一章有博弈论)。上面已说“2010年3个人因在劳动力市场搜寻与匹配理论及其应用的突出贡献,共同获得2010年诺贝尔经济学奖”-即基于匹配理论和博弈论的诺贝尔奖在这几年是接踵而来,仅隔一年仍授予与匹配理论有关的工作,且所有获奖人都是做与匹配理论相关的工作 这在各类诺贝尔奖历史上可能绝无仅有(与之密切的博弈论自1994年以来的短短22年间也已六次获诺贝尔经济学奖--共有15个博弈论专家得到诺贝尔经济学奖)(前面和别处已指出有很多哈密顿圈与博弈论关系的论文,也如这里最后见在我主编的杂志发表论文的《图论与组合》主编Mikio Kano就做圈与博弈的论文-主要是哈密顿圈)
“博弈论”的前世今生和它的一些基本概念及关键理论:
博弈论又被称为对策论(Game
Theory)既是现代数学的一个新分支,也是运筹学的一个重要学科。博弈论在生物学、经济学、计算机科学和其他很多学科都有广泛的应用(在生物学的作用如见继达尔文之后为进化论作出突破性贡献的第一人的著作和科研)。可观看国内外的博弈论公开课。
从最近的“诺贝尔经济学奖获得者丛书”,见Drew Fudenberg和Jean Tirole合撰的《博弈论》被公认是“博弈论领域最具权威性的研究生教材”,这2个作者都是诺贝尔奖得主Eric Maskin的博士生,也是我们琼州大学的师叔爷E. Moore 的博士Oswald
Veblen的博士Harold Hotelling的博士Kenneth Arrow的博士,在网上可见合撰者之一的Jean
Tirole,在世界经济学家排名第二,他合著被奉为圭臬的《博弈论》一书。这套“丛书”一共选4本博弈论方面的,另一本是被公认是“博弈论领域中不可多得的教科书”的《博弈论:矛盾冲突分析》,作者是罗杰·迈尔森(Roger
Myerson) 的博士导师是前面的Kenneth Arrow,因此也是琼州大学的师叔爷的徒孙。这套“丛书”的其余2本中1本是录用多人的文章合编而成的《博弈论经典》、另1本是"博弈论者"奥曼的授课讲义的《博弈论讲义》,如此,本页主要以琼州大学的师叔爷的2本诺奖徒孙的著作诠释博弈论-当然也参考另2本以及其它相关著作(如和纳什同年一起获诺贝尔奖的海萨尼也有世界著名的《海萨尼博弈论论文集》并和上面Eric Maskin、Roger
Myerson同是Kenneth Arrow的博士)。关于图论与博弈论的关系-也可看国际经济学会院士和美国三院院士合写的这本北京大学校长助理李晓明翻译的这本最近很知名的书。
简言之,博弈论是二人或多人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜目标的理论,因此常也称“对策论”;从数学处理上讲,博弈论是一种分析工具包,它被设计用来帮助我们理解所观察到决策主体相互作用的现象。这种理论隐含的基本假设是:决策主体追求确定的外部目标(他们是理性的)并且考虑自身的知识或其他决策主体的行为期望(他们推理具有战略性)(博弈的目的当然是取胜,那怎么才取胜?不考虑对方只有两败俱伤,如此,一般来说取胜应建立在各方最大利益之上,所以,它最重要概念是均衡即这学科核心是均衡理论-而均衡理论是建立在不动点定理基础之上,如此在这个网专门概述一些不动点理论。因时间有限,我确仅能抛砖引玉,我粗略感到它是核心,各位多花些时间可更精细地摸到学科的脉搏)。目前经济学家谈到博弈论主要指的是非合作博弈,“主要研究人们在利益相互影响的局势中如何选择策略使得自己的收益最大,即策略选择问题”,也就是“各方在给定的约束条件下如何追求各自利益最大化,最后达到力量均衡”,博弈的结果不仅取决于某个参与者的行动,还取决于其它参与者的行动。总的来说,如诺贝尔奖得主泽尔腾说“博弈论是使用严谨的数学模型研究冲突对抗条件下的最优决策问题的理论”,用来处理战略博弈参与者最理想行为和决定抉择的均衡,或是帮助有理性的竟争者找到他们应采用的最佳策略”。一个博弈中必不可少的要素包括:参与人(players)、行动(actions)、信息(information)、策略(strategies)、支付(payoffs)、结果(outcome)和均衡(equilibria)
在策略式博弈(完全信息静态博弈)中,一条行动计划表达的总是采取相同的行动,就称之为纯策略;否则就称之为混合策略.
策略式(或标准式)博弈由三种元素组成:参与人集合iΦ,我们设为有限集合{1,2,…I},对每个参与人i有纯策略空间Si,以及收益函数u i,这一函数对每种策略组合S={ S1,S2,…SI}给出参与人i的von
Neumann-Morgenstern效用u i(s)。我们将频繁将除了某个给定参与人i之外的所有其他参与人称为“参与人i的对手”,标记他们为“-i”。为了避免误解,我们要强调一下这一术语并不意味着其他参与人在试图“击败”参与人i,而应该是每个参与人的目标是最大化他自己的收益函数,这可能会涉及到“帮助”或“损害”其他参与人。对经济学家而言,对策略最让人熟悉的解释可能是价格或产量水平的选择,这分别对应于伯川德和古诺竞争。对于政治学家策,可以是投票或演说台的选择。
双人零和博弈是使得对所有s有åi=12 u i(s)=0的博弈,(这类博弈的关键特征是,效用的总和为常数;将常数设为0是一种标准化)。在一个双人零和博弈中,任何一个参与人的收益都是另一个参与人的损失。这是参与人实际上是纯粹的通常意义上的“对手”的极端情况。尽管这种博弈可适用规整的分析,并在博弈论中得到了广泛研究,然而社会科学中绝大多数让人感兴趣的博弈是非零和的。
通常我们还假设,所有参与人知道策略型的结构,知道他们的对手知道这一结构,知道他们的对手知道他们所知道的,如此直至无穷。也就是,博弈的结构是共同知识,这一概念会在第14章中更为规范地加以考察.
混合策略si是纯策略上的一种概率分布.(我们将混合策略的由来原因推迟到本章的后面部分加以解释)。每个参与人的随机化和他的对手的随机化是统计独立的,混合策略组合的收益是对应纯策略收益的期望值.(我们假设纯策略空间有限的原因之一就是为了避免测度
论方面的复杂问题)。我们将记参与人i混合策略的空间为åI,其中si(si)是si赋予si的概率。混合策略组合的空间记为å= x iåI,它的元素是s,混合策略si的支撑集si赋予了正概率的纯策略的集合,组合s下参与人i的收益是åsÎS(Õj=1Isj (sj)) ui(s)。
我们将频繁地希望讨论在保持局中人对手的策略不变时单个局中人i的策略的改变, 此我们令
s-iÎS-i
标记除了i之外所有局中人的策略选择,并用
(s¢-i,s-i) 表示组合{ s1,…si-1,s¢-i,si+1,,…sI}
类似地, 对于混合策略我们令
(s¢-i,s-i)={ s1,…si-1,s¢-i,si+1,,…sI}
定义1.1纯策略si对于局中人i来说是被严格优超的,如果存在s¢-iÎåi,使得
ui(s¢-i,s-i)>ui(si,s-i)对所有s-iÎS-i都成立.
策略si是被弱优超的,如果存在s¢-i使得上式中的不等式以弱不等式形式成立,而且至少对一个s-i不等式严格成立。
纳什均衡是一种策略组合,使得每个参与人的策略是对其他局中人策略的最优反应。
定义1.2 混合策略组合s*是一种纳什均衡,如果对于所有参与人i有ui(si*,s-i*)≥ui(si,s-i*), siÎS.
纯策略纳什均衡是满足同样条件的纯策略组合。由于期望效用是“概率的线性函数”,所以如果一个参与人在纳什均衡中使用了非退化的混合策略(赋予多于一个的纯策略以正概率),则他对于他赋予正概率的所有纯策略会是无差异的。[这种线性也就是为什么在上式中检查是否没有参与人具有有利可图的纯策略偏离就足够了的原因]。
如果一种纳什均衡中每个局中人具有对对手策略的唯一最优反应那么这种纳什均衡被称为是严格的(Harsanyi,1973b)。也就是说,当且仅当它是一种纳什均衡而且是一种严格均衡,而且对于所有i和所有si*¹si,有ui(si*,s-i*)>ui(si,s-i*),
刚见四川大学等都接受上面诺贝尔奖得主所说“博弈论是使用严谨的数学模型研究冲突对抗条件下的最优决策问题的理论”。那么怎样的决策才是最优的呢?也就是力量的最优均衡要如何定义才合理?显然决策过程通常是一个随机动态过程,既有静态又有动态之下的决策,所以决策只能针对特定约束条件下的数学经济模型进行(这里最后有本《…决策与哈密顿圈》专著。.刚见担任北京大学国家发展研究院常务副院长等一大堆职务的巫和懋教授在北京大学退休演讲实录说"后来的几十年里,我还是坚持了下来,直到现在的研究方向还是一般均衡和博弈论” ,所以,这是基本的方向和问题http://www.doc88.com/p-743552016813.html “当你把一些事情当做游戏Game时,出现任何的结果你都会充分享受到它的乐趣”,易以如此吗
)
参与人i的行动或活动以ai表示,是他所能做的某一选择。(Rasmusen)
参与人i的行动集Ai,是其可以采用的全部行动的集合。
一个行动组合(action profile)是一个由博弈中的n个参与人每人选取一个行动组成的有序集合,a={ai}, (i=1, 2,…,n)。
参与人i的策略si是如下的一项规则:给定其信息集,该策略决定在博弈的某一时点是他选择何种行动。
参与人i的策略集或策略空间Si={si}是其可行策略的集合。
策略组合(strategy profile) s=(s1, s2,…,sn)是一个由博弈中的n个参与人每人选取一个策略组成的有序集。
参与人i的支付(payoffs) pi (s1, s2,…,sn)表达这样的意思:
(1)在所有参与人和自然都选择各自的策略且博弈已经完成后,参与人i获得的收益。
(2)参与人i获得的期望效用,该期望效用是参与人i以及其他参与人所选择的策略的函数。
一个博弈的结果(outcome)是指在博弈结束之后,建模者从行动、支付和其他变量的取值中所挑选出来的他所感兴趣的要素的集合。
均衡s*=(s*1, s*2,…,s*n)是指由博弈中的n个参与人每人选取的最佳策略所组成的策略组合。
参与人i在博弈的任何特定时点的信息集(information set) wi是指在博弈树中他认为是可能实际结的不同结的集合,而参与人i靠直接观察是无法从中区分的。
结(node)是指在博弈中某一参与人或自然采取行动的时点,或者博弈结束的时点。(Rasmusen, 2.3)
枝(branch)指在一个特定结上某一参与人的行动集中的一个行动。
扩展式与博弈树
扩展式(extensive form)是对博弈的一种描述,它由下述几点组成:
(1)由结和枝组成的整体结构,即由单和起始结开始直至终点结,中间无闭合的圈。
(2)有对哪能个结点属于哪个参与人的说明。
(3)在自然作选择的结上,有自然选择不同枝的概率。
(4)有划分每个参与人的结的信息集。
(5)在每一个终点结上都有对每一个参与人的支付。
博弈树(game tree)除(5)以外都和扩展式一样,在博弈树中第(5)点变为:(5*)在每一个最终点结上都有结果。
ui表示参与人i的收益,ui
(s1, s2,…,sn)即为参与者选择策略(s1, s2,…,sn)时参与人i的收益。(Gibbons)
因此,在一个n人博弈的标准式表述中,参与人的策略空间为S1, S2,…,Sn,收益函数为u1, u2,…,un,我们用G={S1, S2,…,Sn; u1, u2,…,un}表示此博弈。
在一个n个参与人的标准式博弈G={S1, S2,…,Sn; u1, u2,…,un}中,如果策略组合{s*1, s*2,…,s*n}满足对每一参与人i,s*i是(至少不劣于)他针对其他n-1个参与人所选策略{s*1, s*2,…s*i-1, s*i+1,…s*n}的最优反应策略,则称策略组合{s*1, s*2,…,s*n}是该博弈的一个纳什均衡。即:ui{s*1, s*2,…s*i,…,s*n}≥ui{s*1, s*2,…si,…,s*n}
博弈与解 (Osborne, Rubinstein)
博弈是对战略相互作用的描述,它包括对参与人所能采取行动的约束和参与人的兴趣,但不强调参与人实际采取的行动。解是对结果的系统描述,这种结果可能产生与一组博弈。博弈论给出各种博弈的合理解,并且考察它们的性质。
非合作博弈与合作博弈
在所有博弈论模型中,基本的实体是参与人(player),参与人可被解释为单个或一组作某项决策的人群。一旦定义了参与人的集合,我们便可区分两类模型:一类是以单个参与人的可能行为集合为基本元素;另一类是以参与人群的可能的联合行动集合为基本元素;有时前一类模型称为“非合作型”,第二类模型称为“合作型”。
战略博弈与扩展博弈
战略博弈是这样一种情形的模型:每个参与人选择且仅选择一次行动计划,并且所有参与人的决策是同时做出的(也就是说,在选择行动计划时每个参与人并不知道其他参与人的行动计划)。与此相反,扩展博弈模型则强调事件可能顺序:每个参与人不仅可以在博弈时开始时考虑自已的行动计划,并且在他不得不做决策的任何时候,也可以考虑他的行动计划。
完全与不完全信息博弈
参与人对任何其他人的行动都了解,参与人可能不太清楚别人的行动
排除不确定因素后下面的要素便组成一个理想选择模型:
一个行动(action)集合A,决策主体从A里做一个选择。
一个上述上为的可能结果(consequence)集合C。
一个结果函数(consequence function)g: A→C,g使每个行动与一个结果相对应。
一个集合C上的偏好关系(preference relation) » (一个完全的、可传递的,自反的,二元关系。我电脑里找不到常用的这个符号,就用»吧)。
为了对不确定情形下的决策建模,几乎所有的博弈论都使用了von Neumann和Morgenstern(1944)及 Savage(1972)的理论。也就是结果函数是随机的并被决策主体已知(即,对每一个aÎA,结果g (a)是集合C上的不确定事件)(概率分布),那么决策主体就被认为是为了最大化一个函数期望值(v-N-M效用)去行动,每个函数给每个结果赋一个值。如果行动与结果间的随机联系未给定,那么决策主体就被认为是好像按他心中的一个(主观的)概率分布去行动,这个分布决定了任何行动的结果。在这种情形下决策主体被认为将这样去行动,即他心中有一个“状态空间”(state space) W,一个W上概率测度,一个函数g: A´W→C,和一个效用函数u: C→R;他被假定是为考虑到概率测度去选择一个行动a来最大化期望值u(g (a, w ) )。
术语与记号 (Osborne, Rubinstein)
每个参与人对应一个值做为一个组合,用(xi )iÎN表示。对任一个组合x=(xj )jÎN,和任一iÎN,我们令x--i为除i以外所有参与人的组合。即x--i=(xj )jÎN\{i},x-i是参遇人i的一个值,我们用(x--i, x-i)表示组合(xi )iÎN。如果对每个iÎN,Xi是一个集合,则我们用X--i表示集合´ jÎN\{i}Xj,
一个战略博弈包含:
有限集合N(参与人集合)
对每个参与人iÎN有一非空集合aÎAi(对每个参与人i有效的行动集合)
对每个参与人iÎN,一个建立在集合A=´jÎN Aj上的偏好关系»i(参与人i的偏好关系)。
如果每个参与人i的行动集合Ai是有限的,则博弈是有限的
在一个广泛的范围里,战略博弈中参与人i的偏好关系»i,可以用支付函数(payoff function)ui: A→R(也称为效用函数)来表示,该函数的意义是只要a»ib,就有ui(a)≥ui(b )我们称这一函数值为支付(效用)。我们经常通过给定一个支付函数来确定一参与人的偏好关系,就此而言我们将博弈表示成< N, (Ai ), (ui
)>,而不是< N, (Ai ), (»i)>。
因均衡理论是建立在不动点定理基础之上,而不动点理论已极其丰富,在这个网专门概述一些不动点理论。如
对非合作博弈:x*ÎX是非合作博弈的Nash平衡点的充分必要条件是x*ÎX是最佳回应映射F: X→P0(X)的不动点。
(其中,n人非合作博弈定义为:设N={1,2,…n}是局中人的集合,"iÎN,局中人i的策略集是Xi,X=Õi=1n Xi,fi: X®R是局中人i的支付函数,如果存在x*=(x1*, x2*,…xn*)ÎX,使"iÎN,有
fi(xi*, x-i*)=max uiÎXi fi(ui, x-i*),
则称x*是此n人非合作博弈的Nash平衡点,此时每个局中人都不能通过单独改变自已的策略获得更大的利益。其中-x*=N\{i})
再如对广义博弈:x*ÎX是广义博弈的平衡点的充分必要条件是x*ÎX是最佳可行回应映射F: X→P0(X)的不动点。
(广义博弈的定义:设N={1,2,…n}是局中人的集合,"iÎN,局中人i的策略集是Xi,X=Õi=1n Xi,fi: X®R是局中人i的支付函数,Gi: Xi ® P0(Xi)是局中人i的可行策略映射(它表明当局中人i以外的其他n-1个局中人选取策略x-iÎX-i时,局中人i只能在Gi(x-i)Ì Xi中选取策略),如果存在x*=(x1*, x2*,…xn*)ÎX,使"iÎN,有xi*ÎGi(x-i),且fi(xi*,
x-i*)=max uiÎGi(x*-i) fi(ui, x-i*),则称x*是此n人广义博弈的平衡点)
下面只给出均衡理论最常用的不动点定理:
Kakutani的不动点定理:令X是Rn的一个紧凸集,令f: X→X是一集值函数且满足:
对所有xÎX,集合f(x)非空且凸;
f(x)的图形是闭的(亦即:对所有序列{xj}和{yj},对所有n有ynÎf(xn),yn®y,xn ®x,我们有yÎf(x));
则存在x*ÎX,满足x*Îf(x*)。
战略博弈< N, (Ai ), (»i)>的纳什均衡是一个行动组合a*ÎA,a*的性质是:对每一个参与人iÎN,我们有
(a*-i , a*i) »i (a*-i , ai),对所有aiÎAi。
纳什均衡是一个策略组合,使得每个参与人策略是对其他参与人的策略的最优反应。(Fudenberg,
Tirole。和Osborne, Rubinstein的是一样的,只是a*-i的位置先后不同)
混合策略组合a*是一种纳什均衡,如果对所有参与人i均有
ui(a*i , a*-i) ≥ui(si , a*-i),对所有siÎSi。
关于串通博弈和非串通博弈,这是涉及垄断问题,因此有些串通是要被禁止的。在串通博弈中,在进入阶段中只有一个局中人进入时,进入阶段之后才是供给阶段,否则进入阶段之后是谈判阶段。如果在谈判阶段中没有达成有约束力协定,则谈判阶段之后是供给阶段。一旦达到供给阶段,则其支付和非串通博弈的情况相同。非串通博弈解的特性:最终所获得的所有支付的总和称为联合古诺利润,记为PC=(m-1)(4/m2-1/s)M;非串通博弈解的特性:在0£s£1情形中,没有人进入,所有支付的总和为0。s>1时,获得的所有支付的总和称为联合卡特尔利润,记为PM=(1-n/s)M (s>1) ;
假设(s, M)具有连续分布,令f(s, M)为(s,
M)的概率密度。这种密度应理解为s³1上的条件概率密度,因为我们只对在式s³1意义上的有利可图的市场感兴趣。我们假设f定义在有界闭区间上,并在这一区域是有界的,所以存在常数s-和M-,使得f(s, M)在以下矩形之外为0。显然,如果希望在两种博弈模型的框架之内讨论,则必须假设上限s-<N,否则缺乏潜在进入者造成的进入限制的情况就会出现。毛利润机会的上限M-则几乎不需要进行任何验证。我们只感兴趣PC和PM的期望值E(PC)和E(PM)为:E(PC)=ò1s-ò
(下面是纳什获得1994年诺贝尔经济学奖的最天才的论文《非合作博弈》≈纳什均衡)(看“博弈论”的介绍见说“纳什-Nash利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》《非合作博弈》”,并在博弈论中多次提到“纳什均衡”对博弈论的奠定性作用。这两篇论文的英文原文见《n人博弈的均衡点》《非合作博弈》,前文仅一页也好理解,后文也基本包含前文,所以,下面只翻译后文《Non-Cooperative Games--非合作博弈》)
Von Neumann和Morgenstern在他们的《博弈论与经济行为》一书中已创造出非常成熟的二人零和博弈理论,这书也包含n人合作博弈理论。这理论是基于博弈的参与人组成的多样的联盟之间关系的分析。
与此相反,我们的理论是基本于联合的缺失,也就是假设每个参与人独立地行动,不与其他任何人合作与交流。
均衡点概念在我们的理论中是基本要素,这概念是二人零和博弈解的概念的一般化。它得出二人零和博弈均衡点的集合是所有成对的对立的“好策略”的集合。
在下面各节中,我们要定义均衡点,并证明非合作博弈至少存在一个均衡点。我们也要介绍非合作博弈的可解和强可解概念,并证明关于可解博弈均衡点集合的几何结构的定理。
作为我们的理论应用的一个例,我们求出一个简单的三人扑克博弈的解
在这节我们定义本文的基本概念,并建立标准的术语和记号,重要的定义都先用小标题说明所概念的定义。非合作的思想是内在的,并非明晰的,下面我们一一进行介绍。
用下标i,j,k代表参与人,a,b,g代表一个参与人的不同纯策略。Si ,ti, ri代表混合策略;pia代表第i个参与人的第a个纯策略,等等。
支付函数Pi,在上面定义的有限博弈中使用,是混合策略n元组合的惟一扩充,它对每个参与人的混合策略都是线性的[n元线性]。这个扩充,我们用Pi表示,,记做Pi(s1, s2,…,sn)。
因此,均衡点是一个n元组合$,使得在其他参与人的策略给定的情况下,每个参与人的混合策略都最大化他的支付。所以,每个参与人的策略是对其他人的最优反应。有时,我们将均衡点简记为eq.pt。
我们称混合策略si使用了纯策略pia,如果si=åbcibpib,cia>0。如果$=(s1, s2,…,sn)且si使用了pia,我们也称$使用了pia。
max对所有rj[Pi($; ri)]= maxa[Pi($;pia)] (2)
我们定义Pia($)= Pi($;pia)。那么,我们得到下面$是均衡点的充分必要条件:
si¢=(si+åa j ia($)pia)/ (1+åa j ia($))
首先考虑任意的n元组合$。在$中,第i的参与人的混合物策略si使用他的确定纯策略。这些策略中的某一个,如pia,一定是“最少收益的”,满足Pia($)£Pi($),这使得j ia($)=0。
如果这个n元组合$在T下是不动点,那么si中使用pia的比例在T中是非减的。因此,对于所有的b,j ib($)一定是0,以防止si¢的分母超过1。
反之,如果$是均衡点,那么所有的j都不存在,使得$是T下不动点。
因为n元组合空间满足Brouwer不动点定理,所以T至少存在一个不动点$,它是均衡点。
博弈的自同构(automorphism),或对称(symmetry)是它的纯策略的一个排列,它满足下面给出的条件。
如果两个策略属于一个参与人,那么它们一定是属于一个参与人的两个策略。因此,如果f是纯策略的排列,那么会导出参与人的排列y。
排列f具有混合策略的惟一线性推广。如果si=åaciapia,我们定义:(si)f=åacia(pia)f
f到得然显广推的略策合混对C的略策合混对n做记也们我。广推的合组元C。
证明:首先我们注意到si0=åapia/åa1有性质(si0) f= sj0,j=if,所有n元组合$0=(s10, s20,…,sn0)是任何C下的不动点;因此,任何博弈至少有一个对称的n元组合。
如果$=(s1, s2,…,sn),t=(t1, t2,…,tn)是对称的,那么
($+t)/2=((s1+t1)/2, (s2+ t2)/2,…, (,sn+tn)/2) 也是对称的,因此$C=$« sj= (si)
f,其中j=if,因此有:
(sj+ tj)/2=( (si)j +(ti)j )/2=( (si +ti)/2)j 从而有:
这证明对称n元组合集合是n元组合空间的凸子集,因为它显然是闭的。
因为这个集合满足不动点定理,所以一定存在对称的不动点$,它也是对称的均衡点。
这里我们定义解,强解和次解。非合作博弈不一定总有解,但如果有解,一定惟一。强解是具有特殊性质的解,次解总是存在,并具有解的许多性质。
记Si为第i个参与人的混合策略的集合;Q是混合策略n元组合的集合。
(t;
ri)ÎQ且$ÎQ®($; ri)ÎQ,对于所有i
(5)
这称作可交换(interchangeability)条件。可解博弈的解是均衡点Q的集合。
$ÎQ且Pi ($; ri)=Pi ($)®($; ri)ÎQ
在可解博弈中,令Si是所有混合策略si的集合,满足对某些t,n元组合(t;
ri)是均衡点(si是某个均衡点的第i个分量)。我们称Si为第i个参与人的均衡策略集合。
如果Q是博弈均衡点集合的子集,且满足条件式(1):并且如果Q是相对于这个性质最大化的,那么我们称Q是次解。
对任意次解Q,我们定义第i个要素集合(factor set),Si,是满足对某些t,Q包含(t; ri)中的所有si的集合。
注意一个次解,如果惟一,一定是解。它的要素集合是均衡策略的集合。
定理3 一个次解,Q是所有n元组合(s1, s2,…,sn)的集合,满足每个siÎSi,这里Si是Q的第i个要素集合。几何上,Q的它的要素集合的乘积。