在刚刚过去的中秋国庆假期,我出了一趟门,遇到了老生常谈的出行拥堵问题,这篇文章就假期拥堵的方面来说一说出行选择。
中秋节是中国的传统节日,人们会和家人团聚,而国庆节是中国的国家节日,人们通常会利用这个长假期外出旅游。据新闻报道:9月27日晚,出广东的高速公路就已经开始大堵车,有市民提前三天便开始动身,但仍被堵在路上,有车主在社交平台表示,开车19个小时还没出省,高速路上挤满了“聪明人”!
提前出发为何不再奏效呢?这个现象可以用博弈论中的“囚徒困境”来解释。
什么是“囚徒困境”
囚徒困境的故事讲的是,张三和李四两个嫌疑犯合作作案后被警察抓住,分别关在不同的屋子里接受审讯,他们俩无法交流。警察知道两人有罪,但缺乏足够的证据。如果两人都抵赖,他们将被判刑一年;如果两人都坦白,各判八年;但是如果两人其中有一个人坦白另一个人抵赖,则坦白的放出去,抵赖的判十年。
于是,每个囚徒都面临两种选择:坦白或抵赖。
我们用一个简单表格来体现张三和李四选择的最终结果:
所获刑期 | 对方 | ||
---|---|---|---|
坦白 | 抵赖 | ||
自己 | 坦白 | 判8年 | 判0年 |
抵赖 | 判10年 | 判1年 |
以张三的视角来分析:
1、假设李四这个家伙就是一个软骨头,一看到坦白可以从宽处理,立马就招了,那我不招,不仅便宜了李四,我自己要比坦白多坐2年牢;
2、假设李四是“真哥们”,宁死不从,那我要不要交代呢?我们从表格最后一列看,此时坦白就一点事也没有,相反抵赖还要多坐1年牢。
从上面两点来看,无论李四到底招不招,张三坦白都是优势策略。因此,张三和李四最终大概率会选择坦白,都获得8年牢饭体验。等他们在监狱相见时,会不会面面相觑:前一秒还牢不可破的友谊小船为何说翻就翻呢?
假期出行的博弈
接着我们以高速公路为例,节假日在高速公路行驶,我们假设只有2种策略:
- 正常节假日出行。
- 提前出行。
必要的假设更有利于我们专注分析问题场景,这通常也是一种优势策略。
同样,我们列举一下最终结果:
拥堵程度(*越多表示越拥堵) | 别人 | ||
---|---|---|---|
提前出行 | 正常出行 | ||
自己 | 提前出行 | *** | * |
正常出行 | **** | ***** |
1、如果都正常出行,则最拥堵;
2、如果自己正常出行,别人提前出行,则次拥堵;
3、如果都提前出行,则拥堵程度排第三;
4、如果自己提前出行,别人正常出行,则自己畅通无阻;
我们有了分析“囚徒困境”的经验,现在我们分析出行日期选择的博弈,对于每个人来说,无论别人怎么选择,自己提前出行总是最优的策略。从“囚徒困境”和“出行博弈”的结果来看,我们可以得出一条结论:假如你有一个优势策略,请照办。不要担心你的对手会怎么做。假如你没有一个优势策略,但你的对手有,那么就当他会采用这个优势策略,相应选择你自己最好的做法。提前出行虽然没办法让我们享受最优的收益,但也是次优的一种选择。
破除困境
为什么作为参与者,不选择合作呢?这个问题的关键是:你没法和别人交流商量好。在“囚徒困境”中,张三和李四各自单独身处一间审讯室,他们之间无法交流,其实,即使他们之间存在交流,结果很大可能也不会发生变化。我们以OPEC(石油输出组织)减产石油为例说明,自20世纪70年代开始,OPEC一直合谋提高原油价格,他们通过减产的方式促使价格提高,获得单位价格较高的收益。我们以伊朗和沙特为例,他们各自分别有2个策略:保持减产和偷偷增产。我们容易发现,如果对方老老实实遵守减产协定,那自己偷偷增产则获得更大的利益,偷偷增产是每个国家的优势策略。这个协定的问题在于,怎样才能在双方都面临诱惑时、很想欺骗对方、从对方所失中获利的前提下,找到一个方法,维持一个低产量、高利润价格的策略。对OPEC来说,他们已经可以讨论,但是,即使签订了协定,谁也无法保证不会违反它,这就陷入了新的一轮囚徒困境,策略分别是遵守协定和违反协定。领导合谋的成员虽然骂骂咧咧:“我再也不相信你了”,但背后可能也在偷偷违反协定。
从OPEC的例子我们发现,要达成合作难点在于如何觉察出谁在作弊以及对作弊者的惩罚。
在OPEC的例子里,觉察作弊的思路可以是看原油的价格,比如伊朗和沙特在合作过程中,每天生产200万桶原油下价格才会达到25美元一桶,倘若价格低于25美元,就认为是有人作弊。从经济学原理来看,价格下降有两种原因,一是需求降低,二是生产增加,即有人作弊。作为OPEC组织,除非对需求和生产市场非常熟悉,否则还是有“误会”作弊的风险,不过可以设定一个价格阈值,当价格低于阈值,则认为是对方作弊,以减少“误会”几率。
惩罚也是一个很重要的点。类似于毒品犯罪里,有警察会威胁嫌疑人故意要释放他,用以引起外面的同伙对他的猜忌,这种原理在于:一旦嫌疑人在证据确凿的情况下被释放,卖毒品的同伙人就会认定他已经坦白,会对他发起疯狂的报复。在OPEC里,若要达成合作,则要制定其它经济政治相关的惩罚,如经济制裁,政治孤立等,成员要想违反则不得不慎重考虑。当然这种惩罚也是有限的,比如经济不景气的时候,大家觉得已经山穷水尽,没有明天了,那么作弊和背叛会更激烈。
《圣经》中“以牙还牙,以眼还眼”向我们指示了一个惩罚机制,“人们对你怎么做,你也对他们怎么做”。这个策略在双方一开始时是合作的,一旦有人背叛,则模仿对方上一阶段的行动。再也没有什么字眼会比“以牙还牙”更加清晰、更加简单。这一机制不会引发作弊,所以是善意的。它也不会让作弊者逍遥法外,所以能够产生刺激。它还是宽容的,因为它不会长时间怀恨在心,而愿意恢复合作。但是,它仍然存在缺陷,如果双方发生了一点误会,则这个机制将会陷入毁灭性的循环。
《论语》中“或曰:‘以德报怨,何如?’子曰:‘何以报德?以直报怨,以德报德’”则指示另一个惩罚机制。孔子早在几千年前就告诉我们“以直报怨”,即以公道正直的态度来对待所怨恨的对方,在对方只是偶然的背叛时显得宽容,在对方故意的背叛时则公正无私地实施惩罚。短期内的误会恶化了双方关系,如一方宽宏大量,不对每一次背叛做出惩罚,将维持更久的合作。这样一来,则可能胜过“以牙还牙”的策略。这种额外的宽容固然可能使别人对你稍加作弊,但对方真的有投机倾向,我们也不必听之任之,需让他自食其果。
均衡策略
在现实这个不完美的世界中,囚徒困境的博弈是通常存在的。如果我们达不成完美的合作,寻找最佳的一对策略也是必要的。按照这对策略做,各个参与者的行动都是对对方行动的最佳回应。也就是说,这对策略是让人不后悔的决定。
为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。首先,存在避免循环推理的必要,因为循环推理帮不上忙。以“出行博弈”为例,提前出行虽没有达到最好的效果,但也是次优的效果。均衡在没完没了的“我知道他知道我知道……”的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。
均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处。你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。
最后,均衡结果并不自动意味着这就是对博弈的全体参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。最有利结果需要通过“觉察作弊”和“”惩罚机制”来保障,“以牙还牙”、“以德报怨”都是一种惩罚机制。
看完本文,请从均衡策略角度思考下面的问题:明天某个时候你要在市里会见某人。他已被告知要与你会面。不过,双方都没有更多信息,不知道究竟何时或者在哪里会面。那么,你应该于何时去何地?