Amanda L © Leung Yuk Yiu
- Apr 24
- 3 min read

萬弗瑪利亞的聖愛日記（六十五）

Updated: Apr 25

根據曾鈺成在《矛盾集》裡的《互疑雙輸》中的分析，其實「囚徒困境」的遊戲規則和策略分析，如下：

在二人對弈的遊戲裡，二人分別扮演「囚徒甲」和「囚徒乙」；各自各採取「合作」或者「背叛」兩種策略。合作及互相維護，拒絕招供；背叛及告發對方，出庭作證。遊戲規則：若兩人都選擇合作，各判囚一年；二人都背叛，則各判三年；當一人合作，另一人背叛，則背叛者當庭釋放，而合作者被重判五年。

二人都不知道對方採取什麼策略，各自都理性地為自己爭取最短的刑期。甲會做這樣的盤算：「假設乙合作，如果我也合作，將被判一年；但如果我反叛，即可當庭釋放。再假設乙背叛，如果我合作，將被重判五年，如果我也背叛，則判三年。即是說，不管乙採取什麼策略，選擇背叛都比選擇合作對我有利。

乙也會有同樣的算盤，於是兩人都決定背叛。如果二人重複玩這遊戲，每次都不知道對方的策略，那麼各自出於自己最有利的考慮，必會繼續選擇背叛。這穩定的背叛背叛策略組合，就是納殊平衡。如果二人都選擇合作，其實得到最大的共同利益，各判一年，但因為各自考慮個人利益，便得到對共同利益最壞的結果，各判三年。

如果重複玩這個遊戲，但以多次結果累積來計算成績，那就會出現不同的情況，在多次因雙方都背叛而同被判三年之後，其中一人，比如甲，可能決定尋求改變，不讓者局面繼續下去，於是他冒着對方繼續背叛，自己被重判的風險，毅然轉為合作，想釋出善意。

乙看到甲的這個轉變，如果仍然只考慮個人眼前利益，繼續背叛以換取自己獲釋，那麼甲必然立即轉向原來的背叛策略，以保障自己。但是，如果乙回報甲的善意，接下來也轉為合作，那就可能建立新的納殊平衡，其後二人都合作，獲得最佳的共同利益，達致雙贏。

當然，假如過了若干次，其中一個人抵不住貪念，忽然背叛，那就破壞了互信，促使對方也轉會背叛，恢復到雙輸的局面。

這就是曾司長在網誌裡描述的 TFT 以牙還牙策略，對怎樣處理現實世界中人際關係的矛盾，頗有啟發。

關於博弈者在「重複囚徒困境」裡採取的策略，還有一點很重要的考慮。假設規定遊戲重複玩到一個指定次數之後便告結束，例如說，只玩一百次。那麼玩到第一百次的時候，雙方都只會想：這是最後一次了，不用再考慮以後 TFT 的問題。雙方都估計，對方為求在終極一次取得最大利益，必會背叛，於是自己也必須背叛了。所有，如果重複有限次數，到最後一次，雙方必會背叛。

但我們還可往前在推算一步。玩第九十九次時，雙方也會想：按現在的邏輯，不論這一次，我採取什麼策略，合作或者背叛，下次對方一定是背叛的，那 TFT 已不再有效，所以我現在就應背叛，以爭取最大利益。同樣的推理可以繼續用於第九十八次，第九十七次之前面的每一次，即用歸納法可推導出，自始至終，每次都應背叛。

TFT 只有在無限次數的重複博弈中才會發揮作用，對有限次數的博弈並不奏效。

除此以外，根據曾鈺成在《矛盾集》裡面的《不靠理性》中提出，這一個博弈理論，又有一個很重要的假設，就是所有博弈者都會通過理性思考，用嚴格的邏輯推理去尋找自己取得最大收益的策略。

然而，無數實驗證明，真實的人，在博弈時很少會理性地做出決定；而人們憑非理性決定得到的收益，往往比理性決定好得多。

博弈理論裡面的「旅客困境」很可以說明這問題。

博弈論中，旅行者困境是一種非零和博弈，博弈雙方都為了讓自己收益最大化，而不考慮對方收益。

該博弈是 1994 年由印度經濟學家考希克·巴蘇教授（Kaushik Basu）提出，博弈情形如下：航空公司丟失了兩位互相不認識乘客的旅行包。兩個旅行包正好都是一樣的，並且裏面有相同價值的古董，兩位乘客都向航空公司索賠 100 美元。為了評估出古董的真實價值，公司經理將兩位乘客分開以避免兩人合謀，分別讓他們寫下古董的價值，其金額必須是整數，而且要不低於 2 美元，並且不高於 100 美元。

熱檸七 Amanda L.

萬弗瑪利亞的聖愛日記（六十五）

Recent Posts