從「鷹」與「鴿子」的博弈，看貿易戰的進退之道／黃志光

最近在貿易戰相關的新聞報導中，經常聽到「鷹派」這個名詞，「博奕理論」也很常見。這兩個名詞到底是什麼意思？彼此之間又有什麼關係？如果跟鷹相反的是鴿子，那麼鴿子又如何能在鷹群中博弈、甚至獲勝？

黃志光

Jul 25, 2019

Richard Dawkins在知名著作《自私的基因》一書中，從進化生物學家的角度擴展了約翰．梅納德．史密斯（John Maynard Smith）關於進化穩定策略（ESS）的觀點，解釋自然界如何最終達到平衡。

它背後的理論基礎，就是「博弈理論」，或稱為「賽局理論」；而博弈理論的核心，就是如何做出更好的決策。

作為管理者、投資者、或者是一家之主的你，當然每天都希望為自己、公司、家庭做出更好的決策；而「鷹與鴿子」的故事，也許可以給你一些啓示。

在進入故事之前，讓我們快速回顧一下博弈理論，以防你已經忘記、或是先前沒聽過它。

我們來玩遊戲吧！

所謂博弈理論，基本上是「研究玩家之間的衝突與合作」的數學模型。它的創始人之一是天才數學家馮．諾依曼（John von Neumann；編按：中文也常譯為「馮紐曼」，但姓氏「諾依曼」較為接近德語原始發音）在1944年奠定了概念基礎。

從那時起，博弈理論在經濟、政治、軍事、以及企業策略中就成了許多人熱衷研究的顯學。

《博弈理論與經濟行為》於1944年由普林斯頓大學出版社出版，被譽為「博弈理論中的聖經」

後來，諾依曼加入了美國政府在冷戰時期的重要智囊機構「蘭德公司」（RAND Corporation），對博弈理論的研究與應用有很大的貢獻。

筆者在大學時期開始接觸博弈理論，但所知非常膚淺；直到2001年電影《美麗境界》上映。演員羅素．克洛扮演傳奇人物約翰．納什（John Nash)，再次燃起了我對博弈理論的興趣。

作為一個解決問題的工具，博弈理論協助了美國在冷戰中取得勝利。換上日本著名博奕理論專家川西諭的說法：

它的重點在於不只是看自己，也同時俯瞰他人相互依賴的關係，掌握問題的整體樣貌、拓展空間上的視野，來理解問題的構造。

博弈是指多人之間的相互作用，其中每個人的收益都受到其他人的決定影響。它主要集中在三個方面：

玩家：通常人數不止一個（> 2）
策略：玩家的行為選項
回報：玩家得到的獎勵或結果

在博弈理論的假定中，每位玩家都是按照個人利益而理性行動；而在生物世界裡，「尋求生存」和「傳遞基因」就是這些行動最主要的目的。

囚徒困境

由蘭德公司兩位研究員提出的「囚徒困境」說法，是博弈理論中最被廣泛提到的例子；它的基本前提，是如何在兩名已經被捕、並且面臨潛在監禁危險的幫派成員之間，建立一個彼此互利的戰略。

規則如下：

遊戲玩家為「囚犯A」和「囚犯B」；
兩名囚犯不能交流；
如果A和B都舉報對方，他們都要服刑2年；
如果A背叛B、但B保持沈默，A將被釋放，B將被監禁3年（反之亦然）；
如果A和B都保持沈默，他們兩人都只需服刑1年。

下面的矩陣描述了不同的選擇，數字表示根據每個選擇囚犯A和B服刑的年數。

他們應該選擇哪種策略？想知道答案，我們必須孤立看待每個人的行動。讓我們先從囚犯A的角度來考慮；假設他知道B會保持沈默，應該如何回應？

理論上A應該認罪。因為如果他保持沈默，就必須在監獄裡待一年；但如果他出賣B，就可以馬上被釋放。

也就是說，認罪會對A帶來更好的結果；在這種情況下，只要他知道B保持沈默，那麼只要比較兩種決定的收益，就可以作出選擇。他大可不用考慮B的結果，因為這跟他的選擇沒有關係。

但假設A知道B會招供，他該怎麼辦？同樣的，只要比較認罪與保持沈默的後果，答案就顯而易見了。

在這個狀況下，認罪還是更好的選擇：因為認罪代表監禁2年，但沈默則是3年；所以如果B認罪，A也會想認罪。

把這兩件資訊放在一起，我們得出了一個重要的結論：不管B的策略如何，A最好還是坦白。

A可以忽略B的任何決定，也不用猜測；因為，在任何情況下認罪，都會減少他監禁的時間。

現在，讓我們切換到B的視角。假設他知道A會保持沈默，那麼該如何選擇？

此時，跟先前的A一樣，B也應該認罪；因為只要出賣A，就可以馬上獲得釋放。

最後，假設B知道A會招供。她應該如何回應？

毫無疑問的，B也應該認罪，因為這樣可以少掉一年的牢獄之災；不管A做什麼決定，B還是認罪比較有利。

所以我們可以達成一個結論：兩個囚犯都認罪、大家都在監獄裡度過兩年。像很多電影的情節一樣，由於法官機智運用了博奕理論，最後是司法取得了勝利、正義得到伸張。

然而，這樣的結果可能會使許多剛接觸博弈理論的人困惑：如果兩個人都（說好）「沈默」，只要各關一年；但如果兩個人都「認罪」，卻都要關兩年，這樣不是很奇怪嗎？

換言之，如果可以協調兩個人都沈默，不是對雙方都更有利嗎？

然而，從囚徒困境中設定的回報（刑期的長短），我們看到A與B的選擇傾向：不管你猜對方會做什麼選擇，總可能會有另一個策略的結果更好：而這樣的假設，也就成了主導兩人決定的策略。

在這裡，「認罪」主導了兩個囚犯的理性判斷，雖然「沈默」才是對雙方最好的結果。

以上這個「賽局」，相當程度上證明了人性的特徵：理性的個人利益，會驅動玩家選擇背叛同伴，因為他自認為這樣會得到更好的結果；但他們不會考慮到的是，互利的選擇反而是保持沈默。

這也是在許多貿易談判、或是價格競爭中經常出現的情況；而人們會做的自利選擇，也揭示了我們在這類賽局中缺乏「合作精神」的傾向。

美麗心靈創造「納什均衡」

研究博弈理論的人，通常會用「主導策略」和「納什均衡」這兩個術語，來區分玩家所遵循的策略類型。

這兩個術語通常會一起使用，並且形成了博弈理論的基礎。在「囚徒困境」的例子中，玩家的主導策略是「背叛或認罪」。

「主導策略」並不等同於「納什均衡」；在約翰．納什的眼裡，尋找遊戲中的平衡點才是他最關心的議題。

「納什均衡」之所以如此特殊，是因為它假定每一場博弈中，都至少有一個平衡點；所有的博弈者都會找到它、並且圍繞它形成策略。在這個前提之下，我們都有機會更深刻的瞭解政治、戰爭、經濟、商業、或是社會，並且擬出更好的策略。

以上述的「囚徒困境」為例，納什均衡位於矩陣的左上角，也就是彼此合作、獲得理論上最好的結果。

即使在高階的競爭遊戲之中（例如Google對Apple、美國對中國的貿易戰），也存在著一種「均衡」；在這種均衡之下，雙方都非常瞭解對方，但也堅持己方的策略，形成一種僵持的狀況。

鷹和鴿子

看到這裡，如果你開始對博奕理論產生好奇，我們再來看看鷹和鴿子的遊戲。

在這個例子中，我指的不是美國外交政策中的「鷹派」；但有趣的是，這兩種鷹派在行為中其實有很多相似的地方。或許透過ESS博弈理論，可以讓我們洞察美國總統川普在全世界發起貿易戰的走向。

從定義上講，老鷹總是盡其所能地戰鬥、並且只有嚴重受傷時才撤退；相反的是，鴿子的主要策略是威脅，但從不會傷害他人。

老鷹的策略是不計代價的攻擊，而鴿子則是展示各種策略來消磨對手；當敵人放棄的時候，鴿子就贏了。

讓我們來建立一個假設的遊戲，規則是這樣的：我們分配「分數」給參賽者，贏的獲得50分，輸的0分，重傷-100分，消耗時間罰10分。

所以，只要老鷹遇到鴿子，老鷹總是贏，所以得50分，鴿子0分。

但當老鷹面對另一隻鷹時，它會有一半的勝負機會；如果A鷹贏了，則可以得50分，如果輸了就是0分，萬一嚴重受傷就-100分。因此，每次戰鬥的平均預期回報率，是+50到-100之間的-25。

當兩隻鴿子相遇時，同樣的，每隻鴿子也都有一半輸贏的機會；平均收益等於50/2＝25，再減去10分消耗的時間，也就是+15。

遊戲開始。

博奕理論作為一種數學模型，會經常用代數、甚至微積分來計算不同策略的價值；以下我們嘗試用數學公式來表示：

V代表勝利 = 50，C是付出代價 = -100；
鷹對鴿子：鷹總是贏（鴿子撤退），所以結果是50對0；
A老鷹對B老鷹：兩場比賽各贏一次，所以，(V - C)/2 = -25
鴿子：每次都只是展示策略，所以各贏了一半時間，等於 V/2 - 10 = 15

為了討論的目的，我們假設勝利（V）小於代價（C），所以你可以看到左上角顯示負25，這並不是有利的狀態。更好的策略應該是在右下角，也就是雙方都採取「鴿子策略」、並各自獲得15分。

真實世界的「遊戲」

在現實中，「鷹派」和「鴿派」的賽局當然沒那麼簡單。當V值很高時，玩家會全面倒向老鷹的策略、並將它當作主導策略，也就是「老鷹打老鷹」。

但當V值較低於C值，博弈將有一個以上的「純策略納什均衡」（PSNE）和一個「混合策略納什均衡」（MSNE）。

如前所述，博弈理論學者會用「預測的價值」來構建數學模型和算法，來得出鷹與鴿子的最終的平衡比例；而目前美中之間、或是日韓之間的貿易談判，其實都可以說是在尋找這個「V值」與「C值」的平衡點。

在過去博奕理論還沒有出現之前，我們只看到所謂的「零和賽局」（zero sum game），也就是「所有玩家獲利（有正有負）得加起來等於零」的賽局。

有人說商業社會玩的就是零和遊戲，但博奕理論告訴我們，只要願意彼此合作、產生價值，或許各自都能獲得更大的利益。但這需要積極溝通、站在別人立場考慮，從而建立信任的關係，才能達到理論中最好的結果。

如果生活就像一場遊戲，那就讓我們好好的玩吧！

吐納商業評論 | Tuna Business Review

Discussion about this post