博弈论也也称为对策论或赛局理论,是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。表面上不同的相互作用可能表现出相似的激励结构,所以它们是同一个游戏的特例。其中一个著名有趣的应用例子是囚徒困境。
具有竞争或对抗性质的行为称为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。
起源概述
约翰·冯·诺伊曼是个超级跨界牛人——他同时在“数学、物理学、经济学、计算机”等多个领域作出了划时代的贡献,并留下一大堆以他命名的东西,比如程序员应该都听说过“冯诺依曼体系”,比如数学领域有“冯诺依曼代数、冯诺依曼遍历定理……”,理论物理领域有“冯诺依曼量子测量、冯诺依曼熵、冯诺依曼方程……”。另外还有很多东西,虽没有以他命名,也是他先搞出来的,比如:量子力学的公理化表述、希尔伯特第5问题、连续几何(其空间维数不是整数)、蒙特卡洛方法、归并排序算法1944年,他与奥斯卡·摩根斯坦合作发表了《博弈论与经济行为》一举奠定博弈论体系的基础,所以他也被称作博弈论之父。
博弈类型
合作博弈 & 非合作博弈
不论是合作博弈与非合作博弈,在博弈过程中都可能会出现合作的现象。差别在于——对于合作博弈,存在某种外部约束力,使得背叛的行为会受到这种外部约束力的惩罚。对于非合作博弈,没有上述这种外部约束力,对背叛的惩罚只能依靠博弈过程的其它参与者。通常所说的博弈大都指非合作博弈。
同时博弈 & 顺序博弈
同时博弈有时也称作静态博弈,指的是——博弈的任何一个参与者在选择自己的行为之前,并不知道其它参与者的行为信息。顺序博弈有时也称作动态博弈。在这类博弈中,参与者的动作有时间上的先后,并且后一个执行动作的博弈者可以看到其他博弈者之前的动作,然后根据别人的动作,思考自己的行为。
零和博弈 & 非零和博弈
零和博弈这个名称具有误导性,使得很多人以为各方的收益总和为零。零和博弈指的是——在博弈结束之后,参与各方的利益总和为常量(可以是零,也可以是正值或负值)。非零和博弈指的是——在博弈结束之后,参与各方的利益总和为变量。所以这类博弈有时候称为变和博弈。对于这类博弈,在某些情况下可能会让参与各方的利益总和变大,从而使得各方存在合作的可能性。
非重复博弈 & 重复博弈
非重复博弈有时也称作单次博弈;相应的,重复博弈也被称作多次博弈。重复博弈还可以进一步细分为有限重复博弈与无限重复博弈。更严谨的说法是:有限重复博弈——重复次数确定的博弈,无限重复博弈——重复次数不确定的博弈
博弈策略
收益矩阵 & 决策树
这两个概念都是为了更直观地描述博弈过程,并帮你看清各方的利弊得失。收益矩阵通常用来描述静态博弈(同时博弈)而且一般是用来描述双人的静态博弈,更多人的静态博弈也可以用收益矩阵表述,但画起来会复杂很多;由于动态博弈(顺序博弈)比较复杂,通常不用“收益矩阵”描述。决策树既可以用来描述静态博弈,也可以用来描述动态博弈。
策略 & 策略集合
以象棋为例,完成一局需要经历很多个步骤,对每个步骤,你都有多个决策选项(要走哪个棋子,走到哪)。而策略指的是——从第一步到最后一步的所有决策选项的总和。你可以把策略通俗理解为某种算法 指导思想,它指导你从第一步走到最后一步。所有可能的策略,构成了策略集合。
有限策略集合 & 无限策略集合
石头剪刀布是典型的有限策略集合,该集合只有3个元素。为了说明无限策略集合这种集合,举个分蛋糕博弈的例子,其中一人先把蛋糕随意分为两块,然后另一个人先挑选其中一块。对于负责分蛋糕的人而言,其策略集合是无穷大。很多人凭直觉会认为:具有无限策略集合的博弈比有限策略集合的博弈更复杂。其实不然,围棋虽然很复杂,但其策略集合依然是有限滴。作为对比,分蛋糕博弈比围棋简单多了,但分蛋糕博弈反而具有无限的策略集合。
纯策略 & 混合策略
在实际博弈时,如果你总是固定选择策略集合中的某一个策略,这种情况称之为纯策略。如果你在博弈时,总是随机选择策略集合中的某几个策略,这种情况称之为混合策略。如果某个混合策略包含了策略集合中的每一个元素,称之为完全混合策略。
支配策略
假设你有两个策略 A & B。如果在任何情况下,A 都比 B 更优,称作 A 支配 B 或者 B 被 A 支配。支配策略又称优势策略。如果某个策略能够支配所有其它策略,那么它就是支配策略。通俗地说,不论你的对手采用何种策略,你的支配策略总是比你的其它策略有更好的结果。有时候会把支配策略进一步细分为强支配和弱支配。对于前者,它在任何情况下都比其它策略更好;对于后者,它在某些情况下比其它策略更好,某些情况下与其它策略一样好。制胜策略也称必胜策略,它通常只用于零和博弈,指的是——只要你采用这个策略,不论对方如何应对你总是赢。制胜策略肯定是支配策略;但支配策略不一定是制胜策略。
最小最大定理
比较绕口的陈述是:最小化最大损失,更通俗的表述是在最坏情况下最小化损失。该定理及算法最早由冯·诺依曼在《博弈论与经济行为》一书中提出。
反向归纳法 & 概念该方法洋
其精髓是正向展望,反向推理,首先,你需要思考自己的每个决策,以及对方在应对你的决策时,会采用何种决策,这个思维过程类似于决策树的展开,这个展开过程要一直推演到最后一步,也就是决策树的叶子节点。此时你就可以看清双方在最后一步各自的最优选择;然后再反向回推到第一步。当你要用反向归纳进行展望与推理,前提是——你要获得充分的信息;或者说,如果某个博弈者所知的信息不够充分,就无法运用该方法。
海盗博弈
问题描述
5个海盗抢了100个金币,讨论如何分赃。这5个海盗有等级高低(不妨假设 A>B>C>D>E)。先由等级最高的海盗提出分赃方案,然后投票。如果半数以上(含半数)同意,就按这个方案分,游戏结束;如果同意的不到半数,把提出方案的海盗扔进海里喂鲨鱼,然后由次一等级的海盗提出新的方案;以此类推。每个海盗的特点是:足够理性(追求个人利益最大化)并且知道别人也足够理性;足够残忍(在个人利益等同的情况下,倾向于把更多同伴扔进海里)。
策略分析
为了进行反向推理,假设最后只剩下2个海盗(D & E)。此时的投票肯定过半(D 肯定投票赞同自己的方案)。在这种局面下,D 可以采用最极端的方案——自己全拿100个金币,E 则一个也拿不到。
现在回推一步。当只剩下3个海盗(C、D、E),由 C 提出方案。他只需要分1个金币给 E,E 就会投票支持(否则的话,等到由 D 来提方案,E 啥也拿不到)。所以在 C 的方案中,他自己拿99个金币,E 拿1个金币。
再往前一步。只剩下4个海盗(B、C、D、E),B 提方案,他当然也能想到刚才那些推理。他只需给 D 1个金币,D 就会支持他(如果等到 C 来提方案,D 啥也拿不到)。所以 B 提出的方案是 B:99,C:0,D:1,E:0,同样能得到半数支持。
基于上述分析,再看 A 的方案,就很显然了——A:98,B:0,C:1,D:0,E。
纳什均衡
美国数学家纳什在1951年发表了一篇小论文名叫《非合作博弈》,其中提出了纳什均衡的概念并给出了相应的基于不动点定理数学证明。通俗地说是指在多人的非合作博弈中,如果每个博弈者都无法单方面改善自己的境地,此时的局面称作纳什均衡。冯·诺伊曼已经在《博弈论与经济行为》一书中证明了:零和博弈必定存在这样的均衡点。纳什的贡献在于他从零和博弈推广到非零和博弈,并证明了:这样的均衡点依然存在。当博弈的局面处于纳什均衡,此时的系统是稳定滴,如果每个博弈者都足够理性,他们都不愿意主动改变当前的策略。
心理因素
换位思考
前面聊的很多博弈相关技能都依赖于换位思考这个能力,你需要站在对手的角度进行思考,才能看清局面,从而更好地选择自己的策略。一般来说,那些换位思考能力越强的人,也越善于进行强批判思维。
理性人假设
微观经济学在进行数学建模的时候,通常都会引入一个理性人假设,假定市场的行为主体是充分理性,此处的充分理性还隐含着掌握充分的信息,引入这个假设是为了数学建模的需要。对任何一个国家大多数人都很平庸,他们的共同点之一是非常不理性。充分理性并且掌握了充分信息的个人,那也绝对是凤毛麟角,而理性人假设竟然设定市场的行为主体全都是充分理性的。有了博弈论之后,这个非常扯蛋的理性人假设就可以丢到垃圾桶里。
旧的经济学理论(理性人的解释)会说——所有公司的老板都充分理性,也掌握了充分的信息,知道应该生产何种商品,才能满足市场需求。新的经济学理论(博弈论的解释)会说——公司的老板既有优秀的,也有平庸的。平庸公司生产的商品没人要,自然会亏损并倒闭。随着时间的推移,经过自然选择,活下来的公司当然是那些聪明的。
装疯策略
理性的博弈者把自己伪装成非理性的博弈者,这么干可以获得某种虚张声势的唬人效果。对这种手法,俺称之为装疯策略。
影响范围
经济学
谈博弈论的影响,当然首先要谈它对经济学的影响。有了博弈论,就不再需要那个扯蛋的理性人假设了,这是博弈论诞生后对微观经济的重大影响,还有很多其它的影响。比如说:博弈论诞生前传统的微观经济学以供给需求来建立价格的数学模型。这个模型只考虑了供应量需求量的变化对价格的影响,而完全不考虑供给双方的力量对比。如果供给双方中,一方变得强势或另一方变得弱势。即使供应量与需求量都维持不变,价格也会发生变动,朝着对强势方有利的方向移动。
生物学
生物学受博弈论影响最大的分支估计是演化生物学,也就是的进化论。借助博弈论的研究成果,演化生物学家可以更好地建立物种演化的数学模型。
本文来自投稿,不代表苟探长立场,如若转载,请注明出处:https://www.tongtimes.com/12604.html