「羅馬法官問題」的最佳策略是什麼？

12-29

這個問題是我看《讀者》時想到的：（我自己也不知道答案）

古羅馬法庭審判有一條奇怪的規定，如果所有法官對被告人的判決均為有罪，那麼被告人反而會被無罪釋放。

現在假如有3個「絕頂聰明」的羅馬法官，他們各自獨立判決。他們都想讓被告人被判有罪，只要判決他有罪的人數比判決他無罪的人數多，且三個人不是同時判有罪，則被告人最終被判有罪。
現在，假如我是其中的一個法官，我想知道最佳的策略是什麼？
本題已加入知乎圓桌 ? 日常經濟學 · 博弈人生，更多「博弈論」話題討論歡迎關注

謝邀 @雷徹

Part 1 計算部分

一般兩個人的時候我們可以畫支付矩陣，三個人的話，通常是這麼畫：G=有罪 N=無罪

紅圈圈出的是最優反應，所以可以看出有四個純策略納什均衡：( @寨森)

（1）A選擇無罪，BC選擇有罪

（2）B選擇無罪，AC選擇有罪

（3）C選擇無罪，AB選擇有罪

（4）ABC均選擇無罪

再考慮混合策略納什均衡：

（1）如果只有一個人混合，只可能發生在另兩人選N的情況下（否則都有唯一的最優反應），此時選擇G和N是indifferent的。不妨假設是A進行混合（p概率選G，1-p概率選N），BC均選擇N，對B（或者C來說），選N的期望收益是0，選G的期望收益是p，只要p&>0就應該選擇G，矛盾。故不存在一個人混合的混合策略納什均衡。

（2）如果有兩個人混合，一個人不混合。不妨假設是A不混合，BC各自混合。如果A選純策略N，B混合，此時C的最優反應是G而不是混合，所以A的純策略只能是G。假定B進行混合（p概率選G，1-p概率選N），由對手無差異性，C選擇G的收益（1-p）和C選擇N的收益（p）應當相同才會混合，因此p=1/2。對稱的，C的混合也應當是1/2有罪1/2無罪。此時A選擇G的收益是1/2，選擇N的收益是1/4，所以A選擇G仍然是最優反應。因此，存在兩個人混合的混合策略納什均衡：有一個人選擇有罪，另兩個人選擇混合策略1/2有罪1/2無罪。

（3）如果有三個人進行混合，假定ABC三個人選擇G的概率分別是pA、pB、pC，由對手無差異性：

A：pB(1-pC)+(1-pB)pC=pBpC pB+pC=3pBpC

B：pA(1-pC)+(1-pA)pC=pApC pA+pC=3pApC

C：pB(1-pA)+(1-pB)pA=pBpA pB+pA=3pBpA

pA-pB=3(pA-pB)pC

pA-pC=3(pA-pC)pB

pB-pC=3(pB-pC)pA

這個方程組只有一組解：pA=pB=pC=2/3

所以三個人都混合的混合策略納什均衡是所有人都選擇混合策略2/3有罪，1/3無罪。

這裡有一個有趣的地方（雖然和題目無關）：這個博弈的純策略和混合策略納什均衡總共有8個，屬於不滿足「奇數定理」的那個零測集。關於奇數定理參見 @Manolo 的這個回答：是不是所有 2×2 博弈中，有兩個純策略納什均衡就一定有一個混合策略納什均衡？ - Manolo 的回答

Part 2 解答部分

求出如上的三人博弈的納什均衡只解決了部分問題，納什均衡的一個問題就是：當存在多個納什均衡時，我們不知道具體會發生哪個納什均衡。

如果法官可以提前商量的話，那麼完全可以約定好一個規則，使得按照規則會有兩個人選擇有罪另一個人選擇無罪；反之，如果法官並不能提前商量，以上所有均衡都可能會發生，因為所有均衡都是每個人在對別人的正確信念（belief）下的最優反應。

注意這裡有兩點Remark：

第一，法官在無法溝通的情況下，並不一定會選擇最優解。用如下的Stag Hunt Game說明更容易一些：

兩個人去狩獵，他們只有合作都選擇抓鹿才能成功，並得到收益5；如果不合作，那麼抓鹿的人抓不到鹿，收益是0，而抓兔子可以確保收益3。

此時的最優解是都去抓鹿（收益5），但是事實上也可能會發生都去抓兔子（收益3）。這兩個都是納什均衡（還有一個混合策略納什均衡，期望收益是3）。

第二，儘管線性規劃解出的結果和三個人混合的混合策略納什均衡的結果相同，但是在使用線性規劃的做法時，背後的想法是錯的，因為這相當於認為有人可以告訴這三個人應該做什麼，這違背了「各自獨立判決」的原則。(而且，如果真的有人可以告訴這三個人應該做什麼，為什麼不直接命令其中一個人選擇無罪呢？)

而混合策略納什均衡的基礎是，每個人都對其他人有一個(rational)belief，根據這個belief他們各自選擇了行動，而且根據他們的行動，這個belief是正確的。注意這裡面每個人仍然是各自做決定，同時他們的理性是common knowledge，因此稱他們知道其他人知道他們會這麼做決定，也知道其他人知道他們知道其他人知道他們會這麼做決定……依此類推。

那麼是不是就完全無解了呢？並不是，我在這個回答有哪些簡單但有效的制度設計？ - Richard Xu 的回答中提到過Focal Point的概念，由於某些博弈之外的知識（Knowledge），使得博弈中的某些納什均衡比其它均衡更有可能被選擇。特別注意，Focal Point並不是（或者說，並不需要）事前商量，它只是依賴於事前的其它信息而已。

幾個經典例子：

例1：兩個學生因為出去玩誤了考試，他們決定向教授說謊，稱是因為車胎爆了所以沒能趕回來考試。教授接受了這個理由，並給他們安排了一次補考，補考捲髮下來之後，上面只有一道題：哪個車胎爆了？如果這兩個學生之前真的有過車胎爆了的經歷，那麼他們就存在一個Focal Point，他們都會回答上次爆了的那個車胎。

例2：就是我提到的那個在紐約碰頭的例子，如果我們都只知道紐約有個地標建築帝國大廈，那麼我們在沒有交流的情況下也會選擇去帝國大廈碰頭。

在這個問題中，如果這三個法官不是第一次進行合作，而且以往也發生過這樣的事情，那他們在這一次即使不進行交流，也可以按照先前的經歷，由某一個人選擇無罪。

或者，如果三個法官當中有兩個人的性格一直就是堅持有罪就是有罪而不會判無罪，而另一個人則相對靈活一些，那麼無需交流，也能達成前兩個人判有罪後一個人判無罪這個均衡。

或者，如果大家都認為這個問題當中不應該堅持純策略，那麼所有人都選擇混合策略，就會得到2/3有罪1/3無罪這個混合策略，事實上我個人認為這確實是現實中最有可能出現的納什均衡。（注意我用了「認為」這個詞，因為並不是不能堅持純策略）

然而，Focal Point依賴於博弈以外的信息，在問題中沒有附加信息的情況下，我們無法知道會發生什麼。事實上，博弈中很少存在獨立於其他人的選擇（或者說對其他人的選擇的信念）的最優策略（如果有這樣的策略，被稱為Dominant Strategy，即佔優策略；囚徒困境當中的「背叛」就是佔優策略），絕大多數情況下最優策略都依賴於信念(belief)。

另外一個有趣的地方（和題目有點關係）是，在這個問題當中，如果把「有罪就是有罪，無罪就是無罪」的法官稱為「強硬」的，那麼：

如果沒有法官是「強硬」的，很有可能達成2/3有罪1/3無罪這個納什均衡，罪犯有4/9的幾率被判有罪；

如果有1個法官是「強硬」的，很有可能達成該法官判有罪，另兩個法官1/2有罪1/2無罪的納什均衡，罪犯有1/2的幾率被判有罪；

如果有2個法官是「強硬」的，很有可能達成這兩個法官判有罪，另一個法官判無罪的納什均衡，罪犯一定會被判有罪；

如果有3個法官都是「強硬」的，那就沒得玩了，罪犯一定會被判無罪。

其實問題描述中應該做如下的約定：所有法官必須遵循同一套策略。

不然的話，直接令他們投兩個有罪一個無罪就好了……這可以視為並非由交流得到的呀。

如此來說，就沒有什麼好方法了嗎？也不一定……大家可以想一想呀

在多年的司法實踐中，法官們總結出了一套經驗：【離罪犯最近的法官投無罪，其他人投有罪就好啦】~

犯罪嫌疑人：【不，這不公平！我至少有55.6%的概率可以被釋放的！你們這是作弊！】

法官：【嗯，看來你還是先去玩一下阿瓦隆比較好呀……】

混合策略納什均衡，設三個法官都以p概率判有罪，能三個無罪的概率是（1-p）^3 一個有罪有兩無罪的概率是 3*p*（1-p）^2，3個有罪概率是p^3

這三者加起來就是罪犯被判無罪的概率，最小化之就是最優決策

我自己想到一種方法：

三個法官既然不可以交流，那麼他們的處境就非常類似於囚徒困境里的罪犯，在這裡我想利用概率的方法。

記判有罪為1，判無罪為0

則罪犯最終被判為有罪的情況為

110 或 101 或 011

假設法官有概率p判其有罪，則1-p判無罪（可以用一個特製骰子）

那麼最終判為有罪的概率z=3*p*p*(1-p)

所以最佳策略就是在p∈[0,1]求z的最值

我算出來p約等於0.66667時，z的最大值為0.444444。

這是我想到的最好方法了，但我覺得還是不夠好。

既然都獨立的，那就是概率問題，

000

001

010

011

100

101

110

111

這裡面011,101,110是有罪的，也就是隨機判刑的話，3/8的概率有罪

這裡我覺得要做的就是減枝

假設有一位法官心理想著我直接判有罪，然後，剩下的隨機判那麼就變成了1/2的情況有罪

如果2位法官都認定有罪，第三個隨便判，那麼也是1/2,

當所有人協商好了，就是1

===============================

然後是不努力分布

Ex=np這個地方最高,np=2,p=2/3;

這個可以找個篩子：

1，2，3，4---Guilty；5，6---innocent

==============================

Pr(G=2)=p1p2(1-p3)+p1(1-p2)p3+(1-p1)(p2)(p3);

看作是三元方程

f(x,y,z)=xy(1-z)+x(1-y)z+(1-x)yz=xy+xz+yz-3xyz, 0&求導，求極值。

因為f(x,y,z)在,x,y,z的空間裡面連續，所以存在最大最小值，又因為可微，所以最大最小值的點

極值為0，在內部找到

{x = 0, y = 0,y=0} {x = 2/3, y = 2/3, z = 2/3}

這兩個極值點,所以可以找到最大值就是2/3的時候，概率是3*2/3*2/3*1/3=4/9，所以這就是最好的結果了，當然，如果加入邊界的話，當然是（1，1，0），（1，0，1），（0，1，1）這三個點最好，肯定定罪。總之,(0,1)空間里最大4/9，不足一半；

正方體的棱上的最大值大概就是前面的1/2

在正方體6個頂點，有3個頂點是100%

如果是現實問題：

最佳辦法：三個法官PY交易一番即可。

機智的辦法：準備兩份判決，輪流宣讀自己的判決，後來的人就能根據前面的人來判了。

自作聰明但是可能有效的辦法：最聰明的判斷出另外兩個人怎麼判，然後決定自己怎麼判。

如果是數學問題那就只能扔骰子

因為三個法官面臨的情況是一樣的，而數學問題並不考慮法官的智商差距（因為他們都絕頂聰明）。

所以三個法官只有三種策略：

1：自己判有罪，讓其他人判無罪

2：自己判無罪，讓其他人判有罪

3：隨機

其中選1和選2是死路，因為其他法官也會這麼想。所以最後必然是三個有罪或者三個無罪。

所以只能選3.

隨機雖然愚蠢，但是至少有幾率達成目標。可見在權利組織中混入一部分傻子以保持階梯型智商差距是多麼的有意義。

這個問題是無百分百解的。解決的僅僅是有概率的。

題目默認接受的假設就是法官都是無法互相聯絡的，而且互不相識，羅馬有無窮多個法官，他們不知道這一次選擇的是哪三個法官，也有可能是100個法官同時判案最終C(100,3)呢

解決方案是這樣的：

有3個盒子，每個盒子有2個黑球，1個白球。黑球代表有罪，白球代表無罪。那麼罪犯有罪的概率是：

C(2,3)*(1/3)*(2/3)^2=0.4444

另外，不要聽那個高票的，很簡單的問題，假設了一堆東西改了題主的題目，然後一個勁在那自問自答。這個題沒什麼好假設的，學經濟的離開了假設就要死。

扔硬幣決定，三個法官同時判有罪的概率是八分之一。因為你假設了三個法官聰明絕頂。所以我只能推測他們概率論都學的很好。

無解.如果你認為應該判有罪,那就是三個有罪;如果你認為應該判無罪,那就是三個無罪.因此只能靠隨機性,即拋骰子.

另,法官應該以公正為先呀,怎麼能以個人意願決定案件判決呢?(嚴肅臉)

拋骰子，拋到12選無罪，拋到3456選擇有罪

判有罪。

如果我判有罪，那該犯人最終有罪的概率是1/2；

如果我判無罪，那該犯人最終有罪的概率只有1/4。

這其實和現實情況相符，即使有題目所謂的bug規定，為了正義，也應該判他有罪。

難道你們沒發現問題的本質是正義法官與被收買法官的博弈嗎？

很多答案感覺有誤解啊，這是有無罪審判，不是拋硬幣，更不是隨機獨立。對於有無罪，由於法官決定聰明，即使不交流，也能達成統一。而題目的意思是在達成統一之後，怎麼能避免因全有罪而錯放，

我是其中之一的法官，現在我希望判定被告人有罪，假設另外兩個法官對有罪無罪的判定是獨立同分布且各二分之一的：

以0代表無罪，1代表有罪；

另外兩個人的所有可能：00,01,10,11；

那麼要算的是條件概率：

P（判有罪|我—&>1）=P（01,10）=0.5；

P（判有罪|我—&>0）=P（11）=0.25；

我是其中之一的法官，現在我希望判定被告人無罪，假設另外兩個法官對有罪無罪的判定是獨立同分布且各二分之一的：

P（判無罪|我—&>1）=P（00,11）=0.5；

P（判無罪|我—&>0）=P（00,01,10）=0.75；

return；

重複博弈後產生默契。

。題主假設三個法官絕頂聰明，又說「我是其中一個」怎麼感覺像在誇自己呢？好吧，不抖機靈了。。。

假設是兩個絕頂聰明的法官和題主法官。那麼那兩個法官的地位是等價的，他們會基於相同信息做出相同判斷。即法官A，法官B均知道對方會做出同一判斷，且他倆都知道題主法官知道他們會做出同一判斷。為滿足條件，他倆都會選擇有罪判決（他倆知道只有這樣才能作為定罪的必要條件），題主則選擇無罪判決（知道其他兩個法官會得出定罪的必要條件，所以判決無罪）。

最終嫌疑犯被成功定罪。

三名法官分別從2張有罪和1張無罪的紙條中抽籤，根據抽籤結果進行判罰

①三個法官隨機判決，那麼他們三個得到所需要結果的概率是3/8；

②每個法官自己制定的機制去選擇自己要判有罪還是無罪，在這個機制里，他有n/m可能判有罪（0& 機制這個可以讓聰明的法官自己設計，符合概率學就好很簡單所以沒有拓展。

綜上，在題設條件下法官所能得到判有罪的最大概率為4/9。

每個法官都做一次抽籤，1/3無罪和2/3有罪，然後按照抽到的簽做決定。

假設三法官存在共識，以p 的概率判處自己認為有罪的囚犯有罪。（按題意，只能恰3法官之2判有罪才能成功定罪。）

則問題等價與求 max_p = 3*p*p*(1-p)，解得p = 2/3，最大概率為4/9。