從IBM的深藍開始,到DeepMind的AlphaZero,電腦陸續征服了西洋棋、圍棋等最複雜的棋類遊戲最頂尖的棋手。但電腦也在慢慢毀了這些棋類遊戲——因為棋手們開始越來越依靠死記硬背電腦的下法來擊敗對手,讓棋類遊戲失去了原先的美麗。不過,現在DeepMind團隊正在跟前西洋棋世界冠軍克拉姆尼克合作,嘗試西洋棋的若干變種,試圖恢復棋類遊戲的美麗。
西洋棋以冷冰冰的邏輯著稱,但克拉姆尼克(Vladimir Kramnik)是因為它的美麗而喜歡上這個遊戲的。
他說:「這是一種創造。」他對思維藝術在棋盤上的碰撞,複雜而優雅的挑釁和反擊的你來我往的愛好,讓他在2000年擊敗了卡斯帕洛夫(Garry Kasparov),坐了好幾年的世界冠軍王座。
儘管如此,克拉姆尼克去年還是退出了競技性的西洋棋比賽,同時認為自己心愛的棋類遊戲已經變得越來越沒有創造力了。他把其中的原因部分歸咎於電腦,認為電腦缺少靈魂的算計造就了一個規模龐大的開局和防守庫,然後頂尖選手開始死記硬背。克拉姆尼克說:「在最高層級的比賽當中,有相當一部分近半(有時候甚至整場比賽)的下法都是靠記憶走完的。你甚至都沒有自己的下法,那全都是電腦的下法。」
上週三,克拉姆尼克就如何讓西洋棋恢復一部分人類的藝術提出了一些想法,不過這需要一個有違直覺的來源的幫忙——全世界最強大的西洋棋電腦。他正在跟Alphabet的人工智慧實驗室DeepMind合作,讓研究人員向他們超人的西洋棋玩家AlphaZero發起挑戰,看看後者能不能學習選擇出來的九種西洋棋的變體,進而讓棋手進入到創新性的新模式。
2017年,AlphaZero 展示了自己可以無師自通,先後在西洋棋、圍棋以及日本將棋中擊敗了最好的電腦棋手。克拉姆尼克說,如果大家願意對既定規則做出一些小小的改動的話,其最新結果有望展現一幅令人著迷的西洋棋新圖景。
該專案還展示了西洋棋棋手與機器之間關係的一種更為合作的模式。從事該專案的DeepMind研究人員Nenad Tomašev 說:「開發西洋棋引擎一開始的目的是要擊敗跟自己下的人類棋手。現在,我們會看到像AlphaZero 這樣的系統被用於跟人類一起進行創造性探索而不是針對他們。」
人類玩西洋棋已有大約1500年的時間,對規則的調整併不是什麼新鮮事。對電腦讓這個遊戲變得無聊的抱怨也不算新鮮。
大約500年前,當歐洲棋手將緩慢移動的棋子提升為如今強大的皇后,讓遊戲更加流暢之後,西洋棋迅速傳播開來。1996年,也就是IBM的深藍(Deep Blue)擊敗卡斯帕洛夫的前一年,變成逃亡者的西洋棋神童鮑比·菲舍爾(Bobby Fischer)在布宜諾斯艾利斯召開了一次新聞發布會,在會上他抱怨西洋棋需要重新設計,電腦增強的記憶力應該要給創造力讓位。他推出了菲舍爾任意制西洋棋(Fischer Random Chess),這種棋保留了通常的遊戲規則,但每場比賽都要把底線那排厲害的棋子的起始位置隨機打亂。這種任意制西洋棋又叫做Chess960,後面再西洋棋界慢慢贏得了自己的小眾市場,現在還有了自己的錦標賽。
DeepMind和克拉姆尼克把AlphaZero無師自通從零開始學習遊戲的能力物盡其用,想用借助它來更快地探索西洋棋的新玩法,而不是像過去靠人類折騰了幾十年甚至幾個世紀才把這種遊戲的美麗和缺陷給摸清楚。Tomašev說「你當然不希望自己花了幾個月甚至幾年才玩會的東西卻馬上意識到,『噢,不,這種遊戲一點都不美。』」
「在最高層級的比賽當中,有相當一部分近半(有時候甚至整場比賽)的下法都是靠記憶走完的。」
——前西洋棋冠軍弗拉基米爾 ·克拉姆尼克
AlphaZero 是AlphaGo 更靈活、更強大的升級版,後者曾在2016年擊敗了當時的圍棋世界冠軍,為AI歷史奠定了一個里程碑時刻。系統開始學習遊戲的時候手頭只有這3樣東西:遊戲規則,記分方式以及預先寫進程式的不斷實驗並贏得勝利的衝動。專案的另一位研究人員,DeepMind的Ulrich Paquet 說:「系統剛開始玩的時候表現實在是太糟糕了,我真想躲在桌子底下。但是看著它一步步從一張白紙演變過來的感受令人興奮,無比純粹。」
剛開始下西洋棋的時候,AlphaZero 並不知道可以拿下對手的棋子。但經過幾個小時高速的對抗之後,其自身的能力開始逐漸增強,跟之前的西洋棋引擎相比,它變得更加熟練,而且在某些人看來表現更加自然。在這個過程當中,它重新發現了幾個世紀以來人類玩西洋棋的一些下法,而且還添加了自己的天賦。英國的西洋棋大師馬修·桑德勒(Matthew Sadler)表示,研究AlphaZero的下法就像「發現了過去某位偉大棋手的秘密筆記本」。
AlphaZero 測試過的九種西洋棋的替代版包括沒有國王入堡版的西洋棋,這種規則克拉姆尼克和其他人已經考慮過,並且在今年一月份舉行了第一場專門比賽。這種規則取消了所謂的「國王入堡」走法,這種走法可以讓棋手把自己的王躲進由其他棋子組成的防護屏背後——這是一道強大的防禦工事,但也會令比賽變得沉悶。其他的五種變體則改變了兵的走法,torpedo西洋棋就是其中之一。在這種西洋棋當中,兵自始至終都可以最多走兩格,而不是像原版西洋棋那樣只有第一步可以走兩格。
解讀AlphaZero的結果的辦法之一是看冷冰冰的數字。在沒有國王入堡的情況下,平局跟一般規則下法相比變少了。而學習不同的規則也讓AlphaZero給不同棋子賦予的價值做出了改變:在傳統規則下,王/后的價值相當於9.5個兵;而按照torpedo西洋棋的規則,後只值7.1個兵。
「走了三步之後,你就不知道該怎麼辦了。這種感覺很不錯,就像自己是個孩子一樣。」
——前西洋棋世界冠軍弗拉基米爾· 克拉姆尼克
DeepMind的研究人員最後還是對本專案另外一個西洋棋大腦克拉姆尼克的分析更感興趣。Tomašev 表示:「這跟數字無關,而是從定性上,在美學上能不能讓人樂意坐下來玩的問題。」 上週三發表的一篇技術論文裡西包括了克拉姆尼克對AlphaZero的探索做出的70多頁的評論。
在AlphaZero 如何適應新規則方面克拉姆尼克看到了一些美麗之處。他說,為了保證國王的安全,沒有國王入堡的西洋棋催生了豐富的新模式。self-capture西洋棋是一個更為極端的變化,也就是棋手可以拿掉自己的棋子,結果證明這種改法更加迷人。克拉姆尼克說,這條規則實際上讓棋手有更多機會,透過犧牲一顆棋子來取得領先,數世紀以來這種走法被認為是優雅走法的標誌。他說:「總而言之,這只會讓遊戲變得更加美麗。」
克拉姆尼克希望,AlphaZero的這番西洋棋冒險之旅能夠說服不同等級的棋手去嘗試。他說:「這是我們獻給西洋棋界的禮物。」 現在也許是獻禮的合適的時機。
曾兩次獲得美國西洋棋冠軍的珍妮佛· 沙德(Jennifer Shahade)說,多年來西洋棋一直很受歡迎,但因為新冠病毒流行很多人為了尋找新的智力刺激又熱了起來。大家對Chess960的興趣也在增長,這表明大家對這種新型的下法產生了濃厚的興趣,其中就包括部分超級明星。Shahade還會為Chess960錦標賽提供賽事評論,這場錦標賽吸引了包括世界排名第一的馬格努斯·卡爾森(Magnus Carlsen) 和前西洋棋世界冠軍卡斯帕洛夫在內的一眾好手。
就像克拉姆尼克一樣,Shahade 認為AlphaZero測試的若干西洋棋變體有值得稱道的地方,即便類似允許兵側向移動之類的走法感覺有點「令人費解」。如果這些新變體當中的哪個能夠發展起來的話,一些棋手仍會希望靠電腦和深度研究來取得成功,但是對周期進行重新設置也許會令人著迷。同時也是美國西洋棋聯合會女子專案主管的Shahade說: 「新玩法帶來的發現會令人耳目一新,結果也許會非常令人興奮,並令其他類型的棋手受益」。
由於機器無與倫比,DeepMind 和克拉姆尼克的專案還可以鼓勵電腦西洋棋變得更具創造力。Eli David是以色列巴伊蘭大學的研究員,他自己開發了一個基於機器學習西洋棋引擎。他說:「與其讓電腦西洋棋變得更強大,讓人類顯得相形見拙,不如把西洋棋變成一種遊戲藝術」。他的實驗室有一名研究生正在研究西洋棋軟體,這種軟體會學習模仿特定棋手的風格,這樣大家就可以求助於機器,問問對方某位深受喜愛的西洋棋大師(過去或者現在的)在特定情況下會怎麼走。
克拉姆尼克的經驗表明,讓人與機器合作而不是對抗,不僅可以豐富這種棋類遊戲的技術體驗,也可以豐富其情感體驗。AlphaZero 甚至把他帶到了超出其淵博知識範疇以外的地方。他說:「走了三步之後,你就不知道該怎麼辦了。這種感覺很不錯,就像自己是個孩子一樣。」
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!