博弈論中的納什均衡和夏普利值,從數學上做出理性而聰明的決策

博弈論中的納什均衡和夏普利值,從數學上做出理性而聰明的決策

博弈論是一項關於競爭者之間決策的數學研究。它最早由數學家約翰-馮-諾伊曼和經濟學家奧斯卡-莫根斯坦在20世紀40年代提出。它之所以被稱為博弈論,是因為該理論試圖瞭解兩個或多個玩家(參與者)在特定情況下的策略。在博弈論中,兩個或更多參與者之間的互動通常以具有一套特定規則的遊戲來定義。它涉及零和博弈,這意味著一個玩家贏得的收益對其他玩家來說是一種損失。心理學、進化生物學、戰爭、政治、經濟學、商業、計算機科學中的許多現象都可以被建模為博弈。因此,博弈論具有廣泛的應用。博弈論有4個主要要素。

玩家:戰略決策者

策略:適用於特定遊戲的規則

結果:做出決定後的結果

均衡:在博弈中,雙方玩家都做出了自己的策略而不能採取任何其他行動的點

博弈理論有兩個主要類別,即合作和非合作

非合作性

非合作性博弈是每個玩家之間的競爭性博弈,其中會有一些贏家和一些輸家。非合作博弈理論中最有名的例子是“囚徒困境”。

有兩個罪犯,即小明和小華被警察抓住,被關在兩個不同的房間裡被審問,因此他們不能互相交流。所有可能的結果是。

如果小明和小華互相指控,他們各自在監獄中服刑兩年。

如果小明指控小華,並且小華認罪,那麼小明將被釋放,小華將服刑三年。如果小華指控小明,並且小明認罪,那麼小華將被釋放,小明將服刑三年。

如果小明和小華都認罪,他們都將只服一年的徒刑。

在囚徒困境中,小明和小華各自選擇一種策略,即指控或坦白,總共有四種可能的情況,每一種情況都對應著一種結果。因此,我們可以說明每種策略組合的結果矩陣。

博弈論中的納什均衡和夏普利值,從數學上做出理性而聰明的決策

這意味著小明和小華最好選擇指控對方。因為指控對方比他們一起認罪能獲得更大的“回報”,所有完全理性的自利的囚犯都會選擇指控對方,這意味著他們兩人唯一可能的結果就是指控對方。這個推理是基於一個兩難境地。

小華要麼認罪,要麼指控。

如果小華認罪,小明就應該指控,因為獲得自由比服刑一年要好。

如果小華指控,小明也應該指控,因為服兩年刑期比服三年刑期要好。所以無論如何,小明都應該指控。同理,小華也應該指控。

因為無論對方的選擇如何,指控的結果總是比坦白的結果好,因此它是一種優勢策略。博弈中唯一的納什均衡(Nash equilibrium)(一組策略,沒有參與者可以透過改變策略來提高自己的收益)是相互指控。進退兩難的是,雖然相互坦白比相互指責有更好的結果,但這並不是一個理性的結果,因為從自利的角度來看,選擇坦白並不理性。這不是一個合作性的遊戲,因為所有的參與者都能從背後捅刀子中獲益。囚徒困境適用於許多現實世界的問題。當你與他人競爭時,最好選擇對你最有利的行動,不管其他人決定怎麼做。

合作性

在合作博弈理論中,每個玩家都同意為同一個目標而合作。由於他們是以合作的方式一起工作,所以很常見的是把這個團體稱為聯盟。合作博弈中的問題是一個玩家對聯盟的貢獻有多大,一個玩家從聯盟中獲得多少利益。簡單地說,它試圖確定什麼是公平的。如果一個非合作博弈有納什均衡,那麼合作博弈就有夏普利值(Shapley value),它根據玩家對聯盟的貢獻值在玩家之間劃分收益和成本。它透過滿足以下公理而發揮作用:

邊際貢獻。每個參與者的貢獻可以透過把他們從聯盟中移除來確定。假設聯盟的目標是生產儘可能多的飲料。當小明被剔除後,聯盟生產的飲料比小明在的那一天少了100件。因此,小明的邊際貢獻是100。

可互換的參與者具有同等價值。如果2個玩家為聯盟提供了同樣的東西,他們貢獻量就應該相同。因此,他們應該得到同等的獎勵。如果2個人在餐館裡點同樣的菜品,他們的賬單應該是一樣的。

一個虛擬玩家的價值為零。如果聯盟中的一個玩家根本沒有貢獻,他們根本不應該得到獎勵。如果你和你的朋友一起去餐廳,但沒有點任何東西,那麼你就不應該支付任何賬單,也根本不應該享用美食。

在一個有多個部分的博弈中,成本和支付應該在這些部分之間進行分解。如果你在週一生產礦泉水,然後在週五生產紅酒,那麼你在週五的收益應該比周一多。因此,聯盟應定期審查,以作出調整。

如果滿足上述所有情況,在聯盟博弈中玩家i的沙普利值可以用以下公式計算。

博弈論中的納什均衡和夏普利值,從數學上做出理性而聰明的決策

其中:

N是玩家(參與者)的總數,總和擴充套件到N的所有子集S,不包括參與人i

S是N的一個子集

v(S)是聯盟S的價值

因此,它可以被解釋為:

博弈論中的納什均衡和夏普利值,從數學上做出理性而聰明的決策

圖片來自維基百科為了簡化,想象一下你可以在一小時內單獨工作生產10杯飲料,而你的朋友可以在一小時內生產20杯飲料。然後,你們兩個人決定一起工作。分開任務,你負責包裝,而你的朋友負責其他方面。結果發現,你們兩個人都能在一小時內生產40種飲料。假設,每杯飲料價值1元。那麼你們如何分配收入呢?

事實上,你可以在一小時內生產10杯飲料,然後從總數中減去它們,40-10=30。這就是如果你除去你的朋友會生產多少。因此,你朋友對你的邊際貢獻是30。事實上,你的朋友可以在一小時內做20杯飲料,並從總數中減去,40-20=20。這就是如果你的朋友把你剔除的情況。因此,你對你朋友的邊際貢獻是20。如果你能在一小時內做10杯飲料,你的邊際貢獻是20,根據夏普利值,你應該把這2個數字平均起來。因此,你的獎勵應該是(20+10)/2=15。而你的朋友在一小時內可以做20杯飲料,他的邊際貢獻是30。他的獎勵應該是(20+30)/2=25。因此,從40元中你應該得到15元,你的朋友得到25元。

結論

在個人競爭中,你應該聰明一點,做出對你最有利的決定,而在一群人一起工作以達到同一目標時,你應該公平一點。

TAG: 小華小明玩家指控20