top of page
Search
  • Writer's pictureAmanda L © Leung Yuk Yiu

萬弗瑪利亞的聖愛日記(六十五)

Updated: Apr 25


根據曾鈺成在《矛盾集》裡的《互疑雙輸》中的分析,其實「囚徒困境」的遊戲規則和策略分析,如下:


在二人對弈的遊戲裡,二人分別扮演「囚徒甲」和「囚徒乙」;各自各採取「合作」或者「背叛」兩種策略。合作及互相維護,拒絕招供;背叛及告發對方,出庭作證。遊戲規則:若兩人都選擇合作,各判囚一年;二人都背叛,則各判三年;當一人合作,另一人背叛,則背叛者當庭釋放,而合作者被重判五年。


二人都不知道對方採取什麼策略,各自都理性地為自己爭取最短的刑期。甲會做這樣的盤算:「假設乙合作,如果我也合作,將被判一年;但如果我反叛,即可當庭釋放。再假設乙背叛,如果我合作,將被重判五年,如果我也背叛,則判三年。即是說,不管乙採取什麼策略,選擇背叛都比選擇合作對我有利。


乙也會有同樣的算盤,於是兩人都決定背叛。如果二人重複玩這遊戲,每次都不知道對方的策略,那麼各自出於自己最有利的考慮,必會繼續選擇背叛。這穩定的背叛背叛策略組合,就是納殊平衡。如果二人都選擇合作,其實得到最大的共同利益,各判一年,但因為各自考慮個人利益,便得到對共同利益最壞的結果,各判三年。


如果重複玩這個遊戲,但以多次結果累積來計算成績,那就會出現不同的情況,在多次因雙方都背叛而同被判三年之後,其中一人,比如甲,可能決定尋求改變,不讓者局面繼續下去,於是他冒着對方繼續背叛,自己被重判的風險,毅然轉為合作,想釋出善意。


乙看到甲的這個轉變,如果仍然只考慮個人眼前利益,繼續背叛以換取自己獲釋,那麼甲必然立即轉向原來的背叛策略,以保障自己。但是,如果乙回報甲的善意,接下來也轉為合作,那就可能建立新的納殊平衡,其後二人都合作,獲得最佳的共同利益,達致雙贏。


當然,假如過了若干次,其中一個人抵不住貪念,忽然背叛,那就破壞了互信,促使對方也轉會背叛,恢復到雙輸的局面。


這就是曾司長在網誌裡描述的 TFT 以牙還牙策略,對怎樣處理現實世界中人際關係的矛盾,頗有啟發。


關於博弈者在「重複囚徒困境」裡採取的策略,還有一點很重要的考慮。假設規定遊戲重複玩到一個指定次數之後便告結束,例如說,只玩一百次。那麼玩到第一百次的時候,雙方都只會想:這是最後一次了,不用再考慮以後 TFT 的問題。雙方都估計,對方為求在終極一次取得最大利益,必會背叛,於是自己也必須背叛了。所有,如果重複有限次數,到最後一次,雙方必會背叛。


但我們還可往前在推算一步。玩第九十九次時,雙方也會想:按現在的邏輯,不論這一次,我採取什麼策略,合作或者背叛,下次對方一定是背叛的,那 TFT 已不再有效,所以我現在就應背叛,以爭取最大利益。同樣的推理可以繼續用於第九十八次,第九十七次之前面的每一次,即用歸納法可推導出,自始至終,每次都應背叛。


TFT 只有在無限次數的重複博弈中才會發揮作用,對有限次數的博弈並不奏效。


除此以外,根據曾鈺成在《矛盾集》裡面的《不靠理性》中提出,這一個博弈理論,又有一個很重要的假設,就是所有博弈者都會通過理性思考,用嚴格的邏輯推理去尋找自己取得最大收益的策略。


然而,無數實驗證明,真實的人,在博弈時很少會理性地做出決定;而人們憑非理性決定得到的收益,往往比理性決定好得多。


博弈理論裡面的「旅客困境」很可以說明這問題。


博弈論中,旅行者困境是一種非零和博弈,博弈雙方都為了讓自己收益最大化,而不考慮對方收益。


該博弈是 1994 年由印度經濟學家考希克·巴蘇教授(Kaushik Basu)提出,博弈情形如下: 航空公司丟失了兩位互相不認識乘客的旅行包。兩個旅行包正好都是一樣的,並且裏面有相同價值的古董,兩位乘客都向航空公司索賠 100 美元。為了評估出古董的真實價值,公司經理將兩位乘客分開以避免兩人合謀,分別讓他們寫下古董的價值,其金額必須是整數,而且要不低於 2 美元,並且不高於 100 美元。







8 views0 comments

Recent Posts

See All
Electric Shockf(x)
00:00 / 03:17
bottom of page