摘 要:「囚徒困境」博弈是完全信息靜態博弈的典型例子,被認為是上策納什均衡,具有必然性,但在現實中非納什均衡也同樣出現。本文就「囚徒困境」中非納什均衡出現的問題,對博弈的前提假設完全理性、完全信息以及概率進行了分析,得出的結論是:完全理性中的整體思維方式和概率為零的事件的發生以及完全信息等於一致信念時引起的不確定性,都可能導致非納什均衡出現,而其出現的可能性則取決於採取整體思維方式的人的比例。 關鍵詞:囚徒困境;完全理性;概率;完全信息;整體思維方式 The Analysis about the Probability and Reasons of Non-Nash Equilibrium in Prisoners』 Dilemma Abstract: The prisoners』 dilemma, which is the representative example of complete information static game, is deemed to dominant-strategy Nash equilibrium and has the inevitability, but in fact non-Nash equilibrium also appears. To the question of non-Nash equilibrium in prisoners』 dilemma, this paper makes an analysis to Game Theory』s hypothesis: complete rationality, complete information and probability, and gets a result: systems thinking style in complete rationality, the happen of the event of zero probability, and the uncertainty that is brought out when complete information is concordant beliefs, all can bring the appearance of non-Nash equilibrium, and the probability of appearance is decided by the proportion of men who think in systems thinking style. Key Words: prisoners』 dilemma; complete rationality; probability; complete information; systems thinking style 「囚徒困境」博弈是圖克(Tucker)1950年提出的一個著名的博弈模型,是完全信息靜態博弈的典型例子。 一、 「囚徒困境」博弈及其納什均衡 囚徒困境博弈的基本情況如下:警察抓住了兩個合夥犯罪的罪犯,但卻缺乏足夠的證據指證他們所犯的罪行。如果其中至少有一人供認犯罪,就能確認罪名成立。為了得到所需的口供,警察將這兩名罪犯分別關押以防止他們串供或結成攻守同盟,並給他們同樣的選擇機會;如果他們兩人都拒不認罪,則他們會被以較輕的妨礙公務罪各判1年徒刑;如果兩人中有一人坦白認罪,則坦白者從輕認罪,立即釋放,而另一人則將重判8年徒刑;如果兩人同時坦白認罪,則他們將被各判5年監禁。? 如果分別用-1、-5和-8 表示罪犯被判刑1年、5年和8年的得益,用0表示罪犯被立即釋放的得益,則兩囚徒的得益矩陣如下: 囚 徒2 坦白 不坦白 囚徒1 坦白 -5,-5 0,-8 不坦白 -8,0 -1,-1 在上圖中,「囚徒1」、「囚徒2」分別代表本博弈中的兩個博弈方,也就是兩個罪犯;他們各自都有「不坦白」和「坦白」兩種可選擇的策略;因為這兩個囚徒被隔離開,其中任何一人在選擇策略時都不可能知道另一人的選擇是什麼,因此不管他們決策的時間是否真正相同,我們都可以把他們的決策看作是同時做出的。其中矩陣中第一個數字代表決策結果後囚徒1的得益,第二個數字代表決策結果後囚徒2的得益。 博弈的結果是:由於這兩個囚徒之間不能串通,並且各人都追求自己的最大利益而不會顧及同夥的利益,雙方又都不敢相信或者說指望對方有合作精神,因此只能實現對他們都不理想的結果(各判5年),並且這個結果具有必然性,很難擺脫,因此這個博弈被稱為「囚徒困境」。[1] 二、 非納什均衡出現的可能性及其原因分析 1、完全理性與非納什均衡 囚徒困境博弈的一個假設是博弈方具有完全理性的行為能力。完全理性來源於經濟學中的理性人假設,即博弈方都以個體利益最大化為目標,且有準確的判斷選擇能力,也不會「犯錯誤」。以個體利益最大為目標被稱為「個體理性」,有完美的分析判斷能力和不會犯選擇行為的錯誤稱為「完全理性」。具體地說來,完全理性包括追求最大利益的理性意識、分析推理能力、識別判斷能力、記憶能力和準確行為能力等多方面的完美性要求,其中任何一方面不完美就不屬於完全理性。[1]我們可以看出,這是一個要求非常嚴格的假設。即便如此,完全理性仍在一個方面沒有做出規定(至少是沒有意識到或明確地規定出來),就是思維方式,也即是博弈方是以將問題分解的方式來思考問題呢,還是以系統的整體的方式來思考問題的。我引用《第五項修鍊》上的一段話來表達這兩種思維方式的不同。 自幼我們就被教導把問題加以分解,把世界拆成片片段段來理解。這顯然能夠使複雜的問題容易處理,但是無形中,我們卻付出了巨大的代價——全然失掉對「整體」的連屬感,也不了解自身行動所帶來的一連串後果。於是,當我們想一窺全貌時,便努力重整心中的片段,試圖拼湊所有的碎片。但是就如物理學家鮑姆(David Bohm)所說的,這只是白費力氣;就像試著重新組合一面破鏡子的碎片,想要看清鏡中的真像。經過一陣子努力,我們甚至乾脆放棄一窺全貌的意圖。 現在我們以系統的整體的思維方式來重新分析囚徒困境博弈。警察的目的是獲得證據,以使囚徒獲得應有的懲罰,囚徒的目的是「獲取」最少的懲罰。雙方的這種矛盾使得囚徒有串通的傾向,為了離間兩個囚徒,警察確立了模型中的規則(且不論這些規則和設置合不合理)。對每個囚徒來說,要想達到自身的目的,而不考慮整個模型設置的讓雙方都坦白的目的,很顯然是不行的。囚徒該如何選擇呢?答案是不坦白。如果囚徒看出了該模型的目的,若選擇坦白,以自推人,對方也會選擇坦白,必然落入警察的圈套,此所謂鷸蚌相爭,漁翁得利。當兩博弈方都用整體思維來考慮這個問題時,相互配合 是其最好的選擇,因為在完全理性假設前提下,自己選擇坦白而另一方選擇不坦白,這種機會是沒有的,這種饒幸心理也是取不得的,剩餘的只有要不都坦白,要不都不坦白,所以相互配合是其最好的選擇,結果一定是不坦白。此所謂兄弟鬩於牆,外御其侮,這也是空城記能夠唱成的原因。如果任何博弈方不是採用系統的思維方式來思慮這個問題的,因為一方用分解的思維方式來思考囚徒困境,他會選擇坦白,那麼另一方不管用什麼思維方式來思考這個問題,選擇坦白都是最好的,因此其結果必然是都坦白。 為什麼分解思維方式在這兒會犯錯誤呢?問題在於1 1=2。1 1=2大家不會有任何的質疑,依照邏輯,N個1相加等於N,大家也一樣不會有疑問。舉個例子,把一塊磚放在另一塊磚的上面,這是大家很容易接受也很容易辦到的事情,但萬丈高樓卻不是一塊磚一塊磚地蓋起來的,大家首先需要的是整體設計。我們回來說1 1=2,在數學方面這是沒有質疑的,但把它運用到經濟學領域,其邏輯是否就一定像在數學領域一樣可靠?這其實要回到斯密,斯密當年做出理性人的假設,從理論建設的角度來說,他是為了他的觀點的成立。依靠這個大家從不質疑的邏輯,他完成了他的看不見的手,但是市場失靈出現了,問題的原因一定程度上是由於這個邏輯的可靠性。從概率方面來說,符合邏輯是一種可能,不符合邏輯也是一種可能,擲篩子(隨機)同樣是一種可能。斯密的理性人假設是為了把符合邏輯變成唯一的可能。但當符合邏輯變成唯一的可能後,市場失靈仍然會出現。在《第五項修鍊》上有一個啤酒的實驗例子,當情人啤酒的需求增長一倍後,大家(零售商、批發商和廠家)的理性反應卻弄出來一個痛苦的結局:情人啤酒堆積如山,不得不低價出售。這說明當符合邏輯變成唯一的可能後,市場失靈仍然會出現。因此,1 1=2的邏輯在經濟學領域缺乏完全的可靠性。2、概率與非納什均衡 從概率上來說,都坦白的概率是非常大的,可能很接近1或者等於1。但概率沒有表示出事件到底是怎麼樣發生的,它只表示了發生的可能。概率等於1代表的是事件發生的可能性是100%,而不是事件發生了;同樣,概率為0代表的是事件發生的可能性為0,但這不能就此說事件不會發生了。例如,我們擲飛鏢,從理論上講,對於圓盤上每一點來說概率都為0,但只要我們把飛鏢擲到了圓盤上,對於圓盤上的被擲到的那一點來說,被擲到的概率為0,但它還是被擲到了,事件還是發生了。這有點像紅軍的爬雪山過草地,在蔣介石看來,並且從當時的歷史和實際來看,紅軍的爬過雪山走過草地的可能性為0,但正是這個0的概率,使中國的歷史走到了今天。反過來,我們也可以說概率等於1的事件不一定就發生。 在概率論中,隨機變數分為離散型隨機變數和連續型隨機變數兩種。對於離散型隨機變數,由於其對概率為0的可能值不會包括在內,這使我們習慣性地把概率為0的可能值視為不會發生。也正是由於此,我們無法找到概率為0的離散型隨機變數,也就無法證明它會發生。 對於任意的連續型隨機變數 ,對於任何常數 和 ( ), 。對於隨機變數的取值範圍內的任何一點來說,其概率為 ,顯然為0;對於某一事件來說,其發生的值假定為 ,那麼,我們得出在概率為0的 點事件發生了。 在大家都認為都坦白的概率等於1時,其實其前提是大家都是以分解的思維方式來考慮問題的。現在我們假定在社會中用整體思維方式考慮問題的人占所有社會人的比例為 ( ),用分解思維方式考慮問題的為 。假定用系統思維方式考慮問題的人相遇時,囚徒困境的結果是都不坦白。假定一方坦白,另一方不坦白的概率為0。假定兩種不同的思維方式相遇或都用分解思維方式時,結果都是坦白。那麼警察能夠達到目的的概率為 。 在雙方都知道對方是什麼樣的思維方式的前提下,一方坦白另一方不坦白的博弈結果,因為其概率為0,所以不會對我們的概率(統計)結果有什麼明顯的影響。然而就某一次博弈來說,我們無法確定最後的結果是什麼,只能說一切皆有可能發生。 3、 完全信息與非納什均衡 關於完全信息,我的問題是完全信息是等於共同知識還是等於一致信念?共同知識指的是「所有參與人知道,所有參與人知道所有參與人知道,所有參與人知道所有參與人知道所有參與人知道……」的知識。一致信念是指這種情況,即使所有參與人「共同」享有某種知識,每個參與人也許並不知道其他參與人知道這些知識,或者並不知道其他人知道自己擁有這些知識。[2] 張維迎在《博弈論與信息經濟學》中關於完全信息的表述為:完全信息是指自然不首先行動或自然的初始行動被所有參與人準確觀察到的情況,即沒有事前的不確定性。信息是參與人有關博弈的知識,特別是有關「自然」的選擇、其他參與人的特徵和行動的知識。謝識予在《經濟博弈論》在的表述為:各博弈方都完全了解其他博弈方各種情況下得益的博弈稱為「完全信息(Complete Information)博弈」。我們可以看出,張維迎認為完全信息即沒有事前的不確定性,也就是說完全信息等於共同知識。謝識予認為只要各博弈方都完全了解其他博弈方各種情況下得益就是完全信息,可以說他認為完全信息等於一致信念。 當完全信息等於共同知識時,就如上面的分析。但當完全信息只等於一致信念時,情況就會變得比較複雜。 在完全信息等於一致信念的情況下,我們假定囚徒困境中的博弈方只知道各博弈方在各種情況下得益,任何一方都不知道另一方知道不知道自己知道這些得益以及以後的情況 。如果我們假定雙方都以對方不知道自己知道這些得益為前提來思考這個博弈,那麼情況會怎麼樣呢?因為囚徒困境中的均衡是一個上策納什均衡,在分解思維方式下,不管自己還是對方知道不知道這些信息,自己的上策都是坦白,所以在信息方面不用考慮那麼多。但在整體思維方式下,如果完全信息僅僅是一致信念,以後的信息就可以說是具有不確定性。在面臨不確定性時,我們的完全理性假設就不成立,因為不確定性是指決策者根本不知道某一變數有幾個可能的取值,更不知道每一可能值發生的概率;Knight(1921)指出有限理性的根基是所謂的「根本的不確定性」。可以和完全理性並存的是不完全信息或稱風險,即決策者知道某一變數所有可能的取值,以及每一值發生的概率。[3]因此,完全信息應該等於共同知識,否則我們無法在完全理性條件下分析囚徒困境;要不分析將變得非常複雜,結果也是未知。 三、 基本結論 通過以上的分析,本文認為,完全理性中的整體思維方式和概率為零的事件的發生以及完全信息等於一致信念時引起的不確定性,都可能導致非納什均衡出現,而其出現的可能性則取決於採取整體思維方式的人的比例。 參考文獻: [1] 謝識予.經濟博弈論[M].上海:復旦大學出版社,2002. [2] 張維迎.博弈論與信息經濟學[M].上海 :上海三聯書店上海人民出版,2002. [3] 楊小凱.不完全信息與有限理性的差別[N].經濟學信息報.2001-11-23.
推薦閱讀:

查看原文 >>
相关文章