[拼音]:duicelun
[外文]:game theory
关于两个或多个局中人按一定规则处于竞争状态下的决策行为的数学理论,又称博弈论。对策论是运筹学的一个分支,起源于对室内游戏(如象棋、扑克等)局中人的行为和得失的研究,后来发展成为研究带有竞争因素的社会现象的一种数学方法。在社会、经济、管理等与人类活动有关的复杂系统中,人的行为受感情、心理、经验等因素的偶然变化影响,从而使系统具有很大的不确定性。而且,系统中决策人互相影响,并按各自的利益和知识进行对策,又使问题进一步复杂化。此时,每人都把别人当作自己的“控制对象”,却又无法精确预测别人的行为,取得必需的信息,他们互相间还可能故意隐瞒真情,制造假象。对策论为局中人在这种高度不确定性和竞争性的环境中提供了一套完整的、可以定量化、程序化的选择策略的理论和方法。对策论已应用于社会、经济和军事等方面,如对商品、消费者、生产者之间供求平衡的分析,利益集团间协商和谈判以及潜艇和飞机等作战模型的研究等,也可用于人类开发自然界的分析。
简史1921年法国数学家E.博雷尔最早提出对策论。1928年美国数学家 J.von诺伊曼证明了对策论中最重要的鞍点定理。1944年von诺伊曼和O.莫根施特恩建立了对策论的公理化系统,共同发表《竞赛理论与经济行为》一书,奠定了对策论的理论基础。
效用函数它综合反映了局中人的利益,包括收益、支付的费用或劳动、舒适或安全等因素,并可用来刻划人在风险条件下的决策行为。这些因素需要加以定量描述和归并,例如通过边际价格全部换算为钱的尺度,从而可以互相比较。人们一般具有回避风险的保守心理,这使效用函数呈凸性,即随着支付钱的增多效用值趋于饱和。反之,对于倾向冒险的人,效用函数则呈凹性。因此,不同的人有不同的效用函数,甚至同一人在不同的条件下也有不同的效用函数。在对实际问题进行定量分析时,需要从观测数据来估算效用函数的具体参数,以便确定局中人的对策行为。效用函数u(ω)是定义在结局集合Ω={ω}上的有界实函数。若两种具有不确定性的局势 F1和 F2在 Ω上的概率分布密度分别为 P1(ω)和P2(ω),则局势F1劣于F2(记作F1劏F2)就可定量地表示为
效用函数具有3个性质:
(1)若u为效用函数,则u′=αu+β(α >0)也是效用函数。
(2)若F劏G,u 存在,则任给a<b,均存在效用函数u′,使u(F)=ɑ,u′(G)=b。
(3)若 u与u′均为效用函数,则存在α ,β(α >0)使u′=α u+β。
数学描述社会、经济、管理等系统的特点是存在众多相互影响的决策人(局中人),而且他们的利益不同,甚至是对抗和冲突的。在现代社会中,人类活动范围日益广阔,制定完善策略所需知识和信息愈益增加,已经达到任何一个决策人或机构无法完全收集和处理的程度。信息和决策功能分散化已势在必行,而各种信息在决策人之间的分配情况(称为信息结构)则直接影响决策的结果。各种社会组织结构形式和社会、经济的发展规律又决定了各人参与决策的次序和规则,它们同各种游戏和体育规则一样,对决策方法和结果有重要影响。而且人本身的决策行为也存在不确定因素。可以从以下 6个方面描述对策论的这些有关问题。
(1)设总共有 N个决策人,分别记为DM1,DM2,…,DMN。第i个决策人DMi所选用的决策量记为 ui。用ui∈Ui表示ui可在某个集合Ui中取值。Ui可以是有限元素集合、区间或函数空间(此时ui为函数,对应于微分对策问题)。
(2)各个DMi的目标是使他的效用函数Ji达到极大。Ji不仅受到其他人的决策量的影响,而且还可能受到随机因素ξ的影响。所以Ji可写成
Ji=Ji(u1,u2,…,uN,ξ)
对策人假定均以追求各自的Ji的概率平均值EξJi(称为支付函数)作为行为的准则。随机量是人们无法控制的,有时称为“大自然的选择”。
(3)每个DMi作决策时所能依据的信息为yi=ηi(u1,u2,…,uN,ξ),称为信息结构。yi通常需要付出一定代价由观测或通信得到。
(4)由yi决定ui的规则即称为DMi的策略,记为γi。这实际上就是函数关系ui=γi(yi)。γi可能具有更抽象的含义,例如可以是把一个函数映射到另一个函数的映射。根据具体问题,对 γi可能还希望满足诸如连续性、可测性之类数学条件并要有有效的算法。
(5)规定对策的法则,包括各人决策的逻辑或时间顺序以及决策的方法和内容等,例如宣布一个策略,提供一些信息或采取某种行动。
(6)对各DMi的行为特征做出假定。例如,冒险或保守,是否愿意合作等。
研究内容对策论按局中人数N 的多少可分为二人对策或多人对策;按局中人的合作态度可分为合作对策和非合作对策;按局中人支付函数的总和是否固定可分为零和对策与非零和对策。对策论中研究历史最长、最成熟的是二人零和对策,即N=2,J1+J2=0时的对策问题,DM1所得就是DM2所失。这是完全对抗性的,没有任何妥协余地。许多战争、对抗和竞赛问题都可以应用这种模型。当所有局中人都为一个共同决策目标函数J1=…=JN=J而奋斗时,由于各人拥有信息不同而不能集中起来处理,也无法实现完善合作。这类对策问题属于队决策理论的研究内容,主要是研究信息结构同系统品质和控制策略的关系。它可为大型分散控制系统信息结构和相应的控制策略提供设计参考。当各局中人(DMi)之间不能预先确定合作行动时,对策论的解为纳什平衡,即非合作平衡解,可应用于社会经济等方面的大量问题。当各局中人之间具有一定合作性时,对策论的解为帕雷托最优和协商解,可应用于经济行为研究。局中人分居不同层次时的对策问题称为主从对策,也称为斯塔克尔贝格对策。其主要思想是上级的策略如何通过奖罚手段以诱导或激励下级的行动,使上下级都能获得最高的收益。这种模型反应了社会、经济和管理系统中的层次结构,可用于研究宏观控制政策的制定。对策论的研究内容还涉及决策人的合作可能性和由此引起的群体行为,即由小系统相互作用形成大型复杂系统的宏观特性的问题。此外,动态对策问题,即微分对策也是对策论的重要研究领域,它的特点是过程信息可不断反馈回来而用于了解对手的特性,并可据以采取灵活的反应。这给各类对策问题带来许多新发展的可能性。在微分对策的研究中,自动控制理论的概念和方法发挥了很大作用。现代多人决策理论可看作是管理科学、对策论和自动控制理论交叉融合的结果。
- 参考书目
- J.von诺伊曼,摩根斯顿著,王建华、顾玮琳译:《竞赛论与经济行为》,科学出版社,北京,1963。(J.vonNeuman and O.Morgenstern, Theory of games and economic behavier, Princeton Univ.Press,Princeton,1944.)
- G.Owen, Game Theory, Academic Press,New York,1982.