奧推網

選單
財經

對流氓就打回去,對噴子就罵回去!

有學生問孔子,“昨天有人無緣無故打了我一頓,我就趕緊給他賠禮道歉。咋樣,夫子,小生以德報怨,算得上是個君子了吧?”

孔子一個大嘴巴扇過去,“你腦子秀逗了?安?你不是打算以德報怨嗎?那老師現在打你一巴掌,然後讓你借1萬塊錢錢給我去瀟灑快活,你丫肯借嗎?”

吐了口惡氣,孔子揉了揉手腕,慢條斯理地曰,“問心無愧的情況下,咱們要做一個會耍流氓的君子,要以德報德,以直報怨,懂嗎?”

這是啥意思呢?且聽老彭從博弈論和生物哲學的角度來講一講這個話題。

有個叫做 Douglas Richard Hofstadter的教授,我們叫他霍教授吧,寫了一篇很好看的文章,叫做 The Prisoner’s Dilemma Computer Tournaments and The Evolution of Cooperation (從囚徒困境計算機博弈大賽看種群合作的進

先普及一下什麼叫囚徒困境吧,你們中間學過博弈論的童鞋肯定知道,但是老彭先顯擺顯擺給那些沒聽說過的童鞋聽一聽。

假如小明和小軍一起犯罪並不幸被警察叔叔擒獲了,關在拘留室裡。警長是我的MBA童鞋,想了個損招,把你倆分別單獨關在兩個隔離的房間裡。然後他皮笑肉不笑的先進來跟小明談,“小明啊,看在我和老彭同學一場,賣你個便宜。你先認罪吧,如果你認了罪並作為汙點證人指證小軍,我就保你無罪釋放。”還有這好事?他又奸笑一下, “如果你不招, 而小軍招了, 你就要被判五年刑監。再假如,你倆都講義氣死咬著不招,嘿嘿…” 這聲嘿嘿聽得小明頭皮發麻,“我們已經掌握了現場的指紋和腳印,這些足夠判你們每人兩年。” 他接著誘導,“還有啊,如果你倆都分別招了,因為證據確鑿,對不起哈,但是看老彭面子,輕點,判你倆每人四年。你考慮一下,半小時後我回來等你答覆啊。” 只見這警長出了小明的房間,轉身就進了小軍的房間,也重複了一遍。

小明,小軍,你倆想想,然後寫個條遞給我,寫清楚你倆各自的決策,招還是不招。

小明是學工科的,邏輯思維steel steel’s (鋼鋼的)。他畫了一張表:

其中左邊的數字代表小明的坐牢年數, 右邊的代表小軍的。因為坐牢是倒黴事,所以用負數表示,負得越多越倒黴。

小明開始分析,小軍有兩種選擇,招和不招。

首先假設小軍招了:

如果我不招,我要被關五年(

-5

,0);

如果我也招了,那就我倆都被關四年(

-4

,-4)。

所以如果小軍招了,我也只有招了才有利。

其次,如果小軍不招:

我要不招我倆就都被關二年(

-2

,-2);

我要招了,嘿嘿,我就無罪釋放(

0

,-2),那我肯定招嘍。

所以,不管小軍招與不招,我肯定是招了才能最大程度減刑啊…

小明毫不猶豫的寫了一個“招”字在紙上,折起來,瞄了一眼小軍,按耐住嘴角的奸笑,走上前去,遞給了老彭。

那小軍主修商科的,也不傻,稍微一思量也得出了同樣的結果,鬼鬼祟祟地也把紙條交給老彭。

看著他倆這猥瑣的樣子,老彭會心一笑,想起了當年在博弈課上大家各自心懷鬼胎的熊樣。在一看兩張紙條,不出我所料啊!嘿嘿,老彭猥瑣地奸笑起來。小明和小軍一愣,馬上明白對方都叛變了,也跟著老彭嘿嘿直樂。

看明白了嗎?各位童鞋,這就是博弈論裡著名的囚徒困境,你們有沒有發現他倆會各自被判幾年啊?結果是,兩人都認罪,各判四年(-4,-4)。好像是比最差的五年要好一丟丟哦?但是如果他倆都不懂博弈,傻得冒泡的死咬不招,反而每人只會獲罪兩年(-2,-2)。所以,你們說他倆是傻呢還是奸呢?所以這個遊戲的真正名稱叫囚徒困境悖論!兩人都是理性人,但反而得出了還不如傻子的結果,悲哀啊,悲哀。

其實,剛才小明和小軍玩的是一個單次不重複博弈。他倆都不用考慮以後的後果,就這一錘子買賣,都想盡快脫罪,反正以後撕破臉了也不會有再相處的可能了。所以都會用理性思維去爭取在這次不重複的博弈中獲得他們自己的最大利益,而且都會選擇最佳決策—不合作。

但是,你們想過沒有,如果博弈遊戲一直持續下去,而且玩家誰也不知道玩多少回合,一直多次連續博弈,直到我老彭突然叫停,然後統計玩家各自的收益,玩家會如何決策呢?他們還會只顧自己的短期利益,選擇最自私的決策,把自己的利益建立在別人的損失之上,而不顧要靠互信合作才能獲取的、對彼此都有利的長期利益嗎?尤其是在不知道這個遊戲週期會持續多久的情況下?

在霍教授的文章裡,他介紹了一個這樣的多次連續重複博弈計算機大賽。1979 年在美國密歇根大學舉行了一個比賽,組織者Robert Axelrod 教授,我們叫他阿教授好了, 邀請了十四位精於博弈論的教授來一場囚徒困境博弈大賽。每個參賽者被要求設計一個博弈策略的電腦程式,然後分組捉對廝殺,記錄每個人的最後分數。在程式中,每個人可以選擇C(合作)或者D(不合作),來回應對手的合作或不合作策略,而且可以記住跟這個對手跟自己交鋒的所有歷史策略。積分規則也很簡單:如果你出C, 對手出D, 對手得1分,你零分;如果雙方都出C, 各得0。5分;如果雙方都出D, 都不得分。阿教授規定,每個程式都要與其餘的每個程式交鋒二百個回合。

在這個十四個送來的參賽程式之外,阿教授自己也加了一個程式,叫做RANDOM,就是不管對手出C或D,自己一直完全隨機地採取C或者D策略。

大賽結果令人驚奇,一個只有兩行語句的程式擊敗了眾多設計多達六、七十行語句的程式,獲得了冠軍。

這個程式叫做TIT FOR TAT(以牙還牙):

第一步一定出C(選擇合作);

之後一直重複對手在上一回合的策略。

這種看似無奇的策略,卻獲得了極高的分數。

小軍,你是學商科的,最會算計,你說說,為什麼TIT FOR TAT會在長期連續重複博弈中獲得高分?

這個麼,小軍撓撓後腦勺,估計是因為這種以誠待人的市場策略建立了市場美譽度,這樣就會與很多客戶形成長期合作的雙贏機制吧?

僅僅如此嗎?老彭繼續考問。

小軍想了一下,搖搖頭,還沒想清楚。

那如果你偶爾耍一下小聰明,跟人玩一下心眼兒,會怎樣呢?老彭提醒。

那別人肯定會記住你嘍,誰也不是傻子,小軍毫不猶豫的回答。

好,在這次比賽中就有這麼一個程式,就是這麼玩的,是一個叫Johann Joss設計的。他的策略跟 TIT FOR TAT 非常相似, 但是他會有十分之一的機率耍一次詐,就是選擇不合作。

下面我們看一下這兩個程式的對陣情況:

一開始雙方都出C(合作), 但是JOSS會有十分之一的機會不合作,以便獨吞這一次的分數。於是,他耍賴後,雙方的合作就被打斷,陷入僵局。雙方這麼僵持一會兒以後,由於JOSS的十分之一耍賴機率再次出現,雙方的交易就變成了完全互不信任,完全不合作的狀態。

由於JOSS策略的這種僥倖心理,就是看著平常老老實實做生意,冷不丁偷空佔你一次便宜,一次還沒啥大關係,再次就被別人記住了,用小軍的話說,誰傻啊?隨著JOSS信用的瓦解,願意跟他合作的程式越來越少,JOSS獲得的分數也就越來越少。

至於阿教授所創造的RANDOM 策略, 由於其完全是隨機策略。由於對手無法琢磨他的態度,所有乾脆就都把他看成了一個非常不值得合作的物件,因此他的積分一直是最低。

那麼TIT FOR TAT 為什麼高居首位呢?

表面上看起來, TIT FOR TAT與別人對陣時,每一回合頂多是不吃虧,絕不會比他的對手更好。

但是,TIT FOR TAT 贏在:

決不首先耍詐。

及時回饋善意,哪怕是之前他欺騙過你,也不要因為舊怨而拒絕他,因為拒絕就是雙輸。

別人耍詐時,要毫不猶豫的立即反擊。

堅持原則,讓別人明確知道你的策略是“以牙還牙”,從而不敢輕易冒犯你。

根據比賽過程,阿教授用電腦設計了一個程式,模擬了一個封閉生態環境並考察中個體如何生存和進化的實驗。

在這個封閉生態環境中,有一群原始的有機生命體,分別採取不同的博弈策略,即有兩種選擇:合作和不合作。經過一輪競賽後,得分多的個體可以在下一輪中可 以用較多的份數參賽。 這個“較多份數”設計的意義是模擬演化繁殖過程中,適應環境者可以產生更多的後代。

在這個生態模擬遊戲經過上千輪博弈過程後,阿教授發現了一些有趣的現象:

在前兩百輪中,有一些採取主動耍詐攻擊性策略的個體取得了相當大的優勢,繁殖的群體也越來越來大。

而那些軟弱策略的個體基本上在這前兩百輪中,就成為那些攻擊性個體的犧牲品,併為其壯大創造了條件。

但是隨著這些軟弱個體的消亡,除了攻擊性個體,剩下的大量個體種基本都是採取類似TIT FOR TAT這種策略的個體。

這樣,攻擊性個體就越來越佔不到便宜,反而隨著願意跟他合作的個體越來越少,在一千五百輪之後,這些兇惡的個體種群終於徹底滅絕,被淘汰出局。

剩餘的基本都是採取TIT FOR TAT的個體種群。

在實驗過程中, 阿教授還發現即使是在一片兇惡的生態環境中,

只要有一小群願意彼此合作的生物, 他們就都能存活

下去。如果他們再具有 TIT FOR TAT 的這種堅決的策略,就可以在進化過程中逐漸積累並慢慢取得上風地位,大量繁衍下去。而一旦採取合作性策略的種群取得優勢,就不再可能被採用不合作攻擊性策略的群體取代。

好,現在我考你們一下,整個博弈和模擬生態實驗的讓你們想起什麼?老彭搖搖摺扇,喝口茶,翹起二郎腿,得得瑟瑟的抖了起來。

小紅,你來說。

老師,我認為,博弈過程實際上就是我們的人生過程。我們的一生都在跟人打交道,也就是在跟人博弈,這個博弈不是指我們在與人爭鬥,而是指我們在與別人一個互動的過程。如何能在這個長期重複博弈過程中慢慢積累高分,選擇正確的策略非常重要。簡單說,就是不要沾小便宜,但是也不要傻的毫無戒心,對別人的善意要及時回報。對嗎?老師。

不錯啊,小紅,很好!

這邊小軍又不甘寂寞的舉手,發表意見,

還有,要有做人的原則,並讓別人明白你的底線。沒有原則的,就像那個ROMDOM程式,誰都不帶他玩兒。

好好好!老彭誇道。

所以說啊,老彭總結道:對流氓就得打回去,對噴子就得罵回去,對君子咱就客客氣氣討論問題!

這就叫“以德報德,以直報怨”