一幅畫是不是真跡？AI比專家看得更清楚

2011年，馬克·安德森寫了一篇著名的文章：「軟體正在吞噬世界」。如今，全球正被其中的一種特殊的軟體所吞噬：深度學習。這種軟體使機器能夠處理一些在幾年前還被認為是電腦無法處理的任務，包括駕駛汽車和醫療診斷。我們準備在這個名單上再添一項驚人的壯舉——辨識偽造畫作。

電腦能夠説明專家鑒定藝術品，這是史蒂芬·法蘭克和安德莉亞·法蘭克夫婦努力的結果。他們開發了一種卷積神經網路，可以評估一幅畫，甚至是一幅畫的一部分，是由目標畫家完成的機率。他們最近用這種神經網路來評估李奧納多·達·文西的《救世主》的真假。2017年，這幅畫在佳士得拍賣會上以4.5億美元的價格成交，成為有史以來最昂貴的畫作。

▲ 要對達文西的畫作進行分析，首先需要把高解析度的原畫分割成一片片相互重疊的切片區域，並且這些切片需要含有足夠的有效資訊來進行分析，正如圖中所顯示的。之後作者會利用他的系統來對這些切片進行學習和分析。圖片來源: CORBIS/GETTY IMAGES

2017年11月15日，英國佳士得拍賣行的香檳瓶塞砰砰作響，震耳欲聾。一幅名為《救世主》（Salvator Mundi）的耶穌肖像在紐約佳士得拍賣行以4.503億美元的價格售出，成為迄今為止成交價最高的畫作。

但是，即使在錘子落下的時候，仍有很多人在質疑這幅畫真的是文藝復興時期傑出大師李奧納多·達·文西（Leonardo da Vinci）的作品嗎？50多年前，一位來自路易斯安那州的男子在倫敦僅花了45英鎊就買下了這幅畫。而從1909年到《救世主》重見天日之前的這段時間，根本就沒有出現過達文西的真跡。

一些持懷疑態度的專家看了這幅畫的歷史銷售和轉讓記錄以後，開始質疑這幅作品的來源，他們指出，這幅嚴重受損的畫作進行過大規模的修復。還有一些人覺得這幅畫出自達文西的徒弟而非達文西本人。

從專家們的唇槍舌戰和一系列不完整的證據中，我們真的可以確定一件藝術品的真偽嗎？先進的測量技術可以確定一幅畫的年代、揭示暗藏的細節，但並不能直接確定其創作者。這項工作需要對風格和技術進行微妙的判斷，所以似乎只有專家們才能勝任。但事實上，這項任務非常適合電腦分析，特別是神經網路這一擅長檢查模式的電腦演算法。用於分析圖像的卷積神經網路（CNN）已經得到了很廣泛的應用，像是人臉辨識和自動駕駛。那麼，為什麼不用它們來鑒定藝術品呢？

▲ 作者將他的神經網路應用在了一副林布蘭的畫（上）、一幅曾經被認定是林布蘭的畫（中）和李奧納多的《救世主》（下）這三幅畫作上。圖片上用類似熱成像的顯示方法顯示了不同部分為真跡的機率，顏色越接近紅色就越代表這些區域是演算法認為的可能是由藝術家本人繪製的部分。圖片來源:史蒂芬和安德里亞·法蘭克

這是我在2018年問妻子安德莉亞 M. Frank的問題。她是一位專業的藝術策展人。雖然我職業生涯中的大部分時間都在做智慧財產權律師，但我對網路教育的癡迷程度最近達到了頂峰，並且還獲得了哥倫比亞大學人工智慧專業的學士學位。剛好安德莉亞最近正考慮從原來的工作退休，所以我們決定一起接受這個新的挑戰。

我們從回顧用神經網路分析繪畫的障礙開始，很快確定了其中最主要的幾個。首先純粹是尺寸問題：一幅高解析度的繪畫圖像對於傳統的CNN來說太大了，但是適合CNN大小的較小的圖像可能缺乏支援鑒別所需要的資訊。另一個障礙便是資料庫。神經網路需要數千個訓練樣本，這遠遠超過即使是最高產的藝術家窮盡一生所能創作的畫作數量。由於這些障礙的存在，電腦技術在解決畫作真偽問題這方面的作用顯得微乎其微。

尺寸問題並不是藝術圖像所獨有的，被病理學家用來檢查癌症和其他病症的數位化活檢切片也包含著大量像素。醫學研究人員的解決辦法是，他們將這些圖像分解成更小的碎片，例如正方形的切片，以便於CNN處理。這樣做還可以説明解決資料庫的問題，因為這樣一來就可以從單個圖像分割出大量訓練樣本，特別是當切片可以水平或垂直重疊的時候。當然，這些樣本切片中有很多多餘的資訊，不過事實證明，擁有足夠的樣本數量才是最重要的，因為，在訓練神經網路時，數量就是品質。

如果可以在藝術品鑒定中應用這一技術的話，那麼接踵而至的問題就是決定應該用哪些圖像來作為訓練樣本。《救世主》這幅作品中既有圖像資訊十分豐富的區域，也有缺乏足夠視覺資訊的背景區域，而這些缺乏資訊的區域會為訓練造成極大的困難。例如，如果由於達文西不在乎簽名而導致簽名資訊的缺乏，或者有很多藝術家們都喜歡採用同樣的算繪背景的方式，那麼CNN將會被誤導，這樣一來，它劃定真跡的能力就會受到影響。

我們需要一些標準來説明我們辨識有足夠圖像資訊的樣本，以及那些可以被電腦自動且一致地應用的樣本。我認為資訊理論或許能提供一個解決方案，或者至少為我們指明方向。每當我開始進行數學計算時，安德莉亞的眼睛就會變得呆滯，但這一領域的先驅Claude Shannon是一位獨輪摩托車製造商，他製造的產品包括火焰噴射喇叭和火箭動力飛盤，所以，如果他都可以做到的話，我們應該也差不到哪裡去。

資訊理論的一個支柱就是熵的概念。當大多數人想到熵的時候，他們想到的是物體分裂成無序狀態。Shannon卻認為這是一種很有效率的透過電線傳輸資訊的方式。資訊包含的冗餘越多，就越容易壓縮，那麼發送它所需的頻寬也就越少。能夠被高度壓縮的資訊具有低熵，而另一方面，高熵資訊卻無法被壓縮，因為它們具有更多的獨特性、更多的不可預測性和更多的無序性。

▲ 圖片來源：Pexels

像文字一樣，圖像也攜帶資訊，它們的熵同樣表明了它們的複雜程度。一個全白（或全黑）的圖像的熵為零，所以在這種情況下，記錄大量的1或0是完全多餘的。以及格紋，雖然視覺上格紋看起來比一條單獨的對角線要複雜，但從可預測性的角度上來說，格紋其實並不複雜，這意味著它只多出來了一點點熵。不過當然，一幅靜物畫的熵要比黑白畫和格紋大得多。

不過，認為熵就等同於圖像中的訊息量這一想法也是錯誤的。即使是非常小的圖像也可能有很高的熵，所以，熵反映了圖像資訊的多樣性。作為團隊中數學最差的那個人，我突然想到，我們可以在努力消除背景和其他缺乏資訊的區域時，排除掉那些低熵的部分。

我們從荷蘭大師林布蘭的肖像畫開始，幾個世紀以來，他的作品的歸屬問題一直很有爭議。訓練CNN辨識林布蘭真跡顯然需要一個資料集，其中包括林布蘭的一些畫作和其他人的一些畫作。但是，收集這些資料集也帶來了一個難題。

如果我們隨機挑選50幅林布蘭的肖像畫和50幅其他藝術家的肖像畫，我們就可以訓練出一套系統來區分林布蘭和畢卡索，而不是林布蘭和他的學生以及崇拜者（更不用說那些偽造者了）。但是，如果我們的訓練樣本都集中於林布蘭的真跡和仿製品中的話，CNN就會過度擬合。也就是說，它不能很好地概括其訓練之外的內容。所以安德莉亞開始收集非林布蘭作品的資料集，其中包括一些非常接近林布蘭的作品，以及一些讓人可以聯想到林布蘭但又容易與真品區分開來的作品。

然後我們還需要一些額外的選擇。如果我們要把林布蘭的畫切成片，且只保留那些熵足夠高的部分的話，那麼我們的熵截斷點應該是什麼？我認為一片切片至少應該有和一幅完整圖像一個數量級的熵，這樣才能進行可靠的分類。實踐證明我的想法是正確的，根據不同的作品，我們需要將熵閾值與畫作的特徵聯繫在一起。這是一個很難達到的標準，通常只有不到15%的切片符合標準。不過這個問題很好解決，我們可以增加相鄰切片之間的重疊部分，以達到訓練所需的切片數量。

這種基於熵進行選擇的結果從直觀上來看是有意義的。確實，那些真跡是人為鑒定過的，通常情況下，電腦會捕捉專家們在判斷一幅畫的作者時所依賴的特徵。以《救世主》為例，選定的切片部分覆蓋了耶穌的臉、側面捲髮和手，這些全是學者們對這幅畫的作者進行爭論時的焦點。

接下來要考慮的是切片的大小。在標準硬體上運行的常用CNN可以輕鬆處理從100 × 100像素到600 × 600像素的圖像。小一些的切片可以把分析限制在精細的細節上，而使用大的切片會有導致CNN過度擬合到訓練資料上的風險。但最終只有通過反復訓練和測試，我們才能為特定的圖像確定最佳的切片大小。對於林布蘭的肖像畫，我們的系統使用450 × 450像素的切片效果最好，這大約是主體的臉的大小，所有的其他切片都會縮放到相同的解析度。

我們還發現簡單的CNN設計比更複雜（和更常見）的設計效果更好。所以我們決定使用只有五層的CNN。安德莉亞精心挑選的資料集包括76幅林布蘭和非林布蘭畫作的圖像，我們將這些圖像以四種不同的方式組合成了51幅訓練圖像和25幅測試圖像。這允許我們「交叉驗證」結果，以確保跨資料集的一致性。我們的五層CNN學會了將林布蘭與他的學生、模仿者和其他肖像畫家區分開來，準確率超過90%。

受到這次成功的鼓舞，我們打趣地為勇敢的小CNN起了個名字叫「A-Eye」，並把它用在另一位荷蘭天才畫家文森·梵谷的風景畫上。我們選擇梵谷是因為他的作品與林布蘭的截然不同。梵谷更在意情感而非考究，所以他的筆觸大膽而富有表現力。這一次，我們的資料集包括了152幅梵谷的和非梵谷的畫作，用四種不同的方式把他們分成了100幅訓練圖像和52幅測試圖像。

A-Eye在梵谷的作品中表現得很好，在我們的測試中再次表現了很高的準確性，但必須要用小得多的切片。表現最好的那一部分只有100 x 100的像素，大約只是一筆的大小。藝術家作品的「經典」尺度——也就是CNN對其進行準確分類的尺度——對不同藝術家來說是獨特的，至少在肖像畫和風景畫等流派中如此。

▲ 在顯微鏡載片上，粉紅色部分表示神經網路認為的可能是病變的組織。圖片來源：史蒂芬·法蘭克

使用CNN來分析藝術品的挑戰也困擾著醫學圖像的自動化分析，尤其是病理學家用來分析癌症和其他疾病跡象的大量組織樣本的全幻燈片圖像（WSIs）。這些圖像可能有數十億像素大小，通常需要在功能強大的工作站上觀看，這些工作站可能直接由投影片掃描器集成。目前，人工智慧的應用還需要向全尺寸圖像努力，研發更專業的硬體，如強大的圖形處理單元來進行處理分析。這些努力也受到「黑盒子」問題的影響：如果電腦只是對切片進行分類，病理學家們該如何確定它是否找對了地方？

相對於一個巨大的WSI而言，CNN能分析的最大的切片的大小也是遠遠不夠的。病理學家該如何確定他們可以準確捕捉到那些對診斷至關重要的解剖結構？腫瘤細胞可以熟練地偽裝自己，疾病的線索可能潛伏在它們的外部，其形式可能是周圍組織的組成變化或附近免疫細胞異常，因此判斷性特徵並不總是可用於判斷的。

圖像熵可能會有所説明。圖像縮放和切片大小可以作為「旋鈕」，不斷調整直到達到分類精度的峰值。訓練和測試一系列圖像和切片大小，就像我們對繪畫作品所做的那樣，可以讓CNN區分病變和正常組織，甚至是各種形式的疾病。雖然我們已經在用圖像熵來確定最具判斷力的切片，並用他們來訓練我們的神經網路，但在醫學領域，以腫瘤為例，以這種方式辨識的切片甚至可以在CNN分析之前，以組合的方式提供相當不錯的判斷。——S.J.F.

CNN到底是如何找到關鍵細節的，它在做判斷時「看到」了什麼？這些都不好確定。CNN的business端（實際上是它的中間部分）是一系列卷積層，逐步將圖像消化成細節，然後以某種不可思議的方式進行分類。這一黑箱特性是人工神經網路面臨的一個眾所周知的挑戰，尤其是那些分析圖像的神經網路。我們所知道的是，當對大小合適的切片進行訓練時，CNN可以可靠地估計出與每個切片對應的畫布區域為真跡的機率，我們可以根據不同切片的機率將這幅畫作為一個整體進行分類——最簡單的方法是找到它們的總體平均值。

為了更精細地計算每一個像素為真跡的機率，我們可以計算包含這個像素的所有切片的平均真跡機率，以確定該像素最終的真跡機率，然後得到一幅機率圖，顯示不同的像素有多大的機率是出自目標畫家之手的。

畫布上的機率分佈具有指導意義，特別是對於已知（或懷疑）曾與助手合作的藝術家，或那些畫作被損壞後又被修復的藝術家。例如，林布蘭的妻子莎斯姬亞·凡·優倫堡的肖像畫在我們的機率圖中就有一些令人生疑的地方，尤其是臉部和背景。這與研究林布蘭的學者們觀點一致，他們認為這些區域後來被林布蘭以外的人覆蓋過。

儘管這些發現具有啟發性，但那些被電腦劃分為真跡機率低的區域並不代表一定就不是真跡，因為這些區域可能是藝術家大膽的、不符合平時風格的實驗的結果，甚至有可能只是因為那天藝術家的心情不太好，或者是簡單的分類錯誤。畢竟，沒有一個系統是完美的。

我們對自己的系統進行了測試，對林布蘭和梵谷的10幅作品進行了評估，專家們一直在激烈爭論這些作品的歸屬問題。不過，我們的分類標準符合當前學術界的共識。因此，我們有勇氣迎接更大的挑戰──評估《救世主》。我們認為這項任務極具挑戰性的原因是目前確定屬於達·文西的畫作太少了（不到20幅）。

最終，我們還是得到了一些切片，並產生了一張機率圖。我們的研究結果認為這幅畫的背景和祝福之手可能並不是達文西畫的，這與這幅畫經歷過大規模的修復的說法是一致的，其中包括對背景的徹底重繪。同時，專家們在誰畫了祝福之手這個問題上存在嚴重分歧。

▲ 2017年花4.5億美元買下《救世主》的買家是匿名的，這幅畫目前下落不明。但有報導稱，它現在在沙特王儲穆罕默德·本·薩勒曼的超級遊艇「寧靜」號上。圖片來源：顏孟德/法新社蓋蒂圖片社

在我們的方法建立了一定的可信度之後，我們的野心也逐漸增長。我們系統檢測出來的結果與目前學界普遍認為的結果之間差距較大的是一幅名為《戴金色頭盔的人》（the Man With the Golden Helmet）的畫作。長期以來，這幅畫一直受到人們的喜愛，因為它是林布蘭的一幅特別引人注目的作品。1985年，它的所有者柏林國家博物館（Staatliche Museum）不再認為這幅畫出自林布蘭之手，因為博物館的學者們認為這幅畫在繪畫處理上和林布蘭已知的工作方式很不符。

這幅畫現在被認為是一位不知名的「林布蘭圈子」畫家的作品，在公眾的心目中，它的光彩已經褪色，只剩下那個憂鬱的士兵戴著的那頂壯觀的頭盔還在閃閃發光。但我們的CNN系統強烈認為這幅畫出自林布蘭之手。此外，我們的整體研究結果提醒我們不要將林布蘭的作品歸因在精細的表面特徵上，因為將CNN的分析範圍縮小到這些特徵的做法會使得整個預測結果跟瞎猜的一樣。我們希望，有一天，畫中的這名士兵可以重拾自己的榮耀。

圖像熵是一個多功能的助手。它可以辨識出複雜圖像中最能代表整體的部分，使即使是最大的圖像——包括醫學圖像也能接受電腦分析和分類。隨著訓練的簡化和對大資料集的需求的減少，小型CNN也可以發揮更大的作用。

▲ 史蒂芬和安德列·法蘭克圖片來源：IEEE

資料來源：THIS AI CAN SPOT AN ART FORGERY