囚徒困境

两个被捕囚徒之间的特殊博弈
囚徒困境是1950年先经由美国兰德公司梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)提出假设理论,后由艾伯特·塔克( Albert Tucker)命名的理论。[7][3][2]其主要理念是:博弈双方基于对对方的不信任和自身利益最大化考量,往往选择对对方不利的选择,导致利益最小化。[8][4]
其情节为:共同犯罪的AB两人,被捕后处于信息不对称的状态,出现三种情况:双方坦白均获刑8年、一方坦白另一方抵赖,坦白一方释放而抵赖一方获刑10年、双方抵赖获刑1年。对集体来说,最优解是“都不坦白”,但出于自身利益考量,往往选择都坦白,导致双方利益最小化。[7][8][4]
在生活中随处可见囚徒困境博弈,广泛应用于政治学经济学社会学、商业、司法等领域,[3][4][5][6] 具体体现在如军备竞赛、征地问题、公益诉讼问题、关税战、市场价格战、诉讼、见义勇为困境等,[9][10][4][6]每个困境都有从纳什均衡[a]转向帕累托最优解[b]的解决方案,可能在进行多次博弈后才能慢慢向最优解靠近。[11]通过对基础理论的研究,延伸出重复囚徒困境博弈、空间囚徒困境博弈、非对称囚徒困境博弈,每个模型都有助于双方进行更理性的合作。[12][13][11]与囚徒困境博弈模型相类似的还有雪堆博弈和公共品博弈,[14]囚徒困境反映了集体理性和个人理性的冲突,理性人的个人理性行为可能导致集体非理性,理性人会从个人利益出发做出对自己最有利的行为,为了达到集体最优解,个人需要抑制对自利的追求。在现实生活中,人们应该彼此信任建立合作关系。[1][4][15]

定义与提出

“囚徒困境”是经济学家常用的一种博弈论模型,是非零和博弈中最典型的例子之一,[14]互不信任的双方在不知道对方选择的情况下做出对自己最有利的选择。[8]学者用其来描述个体的理性最终会导致集体不理性结局的情况。[16]1950 年,美国兰德公司从事综合性战略研究业务梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher) 假设了一个困境理论,后来顾问艾伯特·塔克( Albert Tucker)利用囚徒的故事具体阐述该理论, 将其命名为囚徒困境。[7][3][2]