2024年圖靈獎揭曉！AI強化學習先驅獲殊榮，AlphaGo、ChatGPT幕後功臣

全球電腦科學界最高榮譽「圖靈獎」於2024年頒發給兩位人工智慧（AI）領域的先鋒：安德魯·巴托（Andrew Barto）博士和理查德·薩頓（Richard Sutton）博士，以表彰他們在「強化學習」領域的開創性貢獻。

美國電腦協會（ACM）於週三正式宣布此消息。巴托博士現為麻省大學榮譽退休教授，薩頓博士則任職於亞伯達大學，並曾擔任DeepMind研究科學家。兩人將共同分享100萬美元的獎金。圖靈獎設立於1966年，被譽為「電腦科學界的諾貝爾獎」。

「他們是強化學習領域無庸置疑的先驅。」華盛頓大學電腦科學榮譽退休教授奧倫·埃特齊恩（Oren Etzioni）表示，「他們提出了關鍵概念，並撰寫了該領域的權威著作。」

強化學習推動AI發展

在過去十年中，強化學習在AI的崛起中扮演了至關重要的角色，包括Google的AlphaGo和OpenAI的ChatGPT等突破性技術，都得益於巴托博士和薩頓博士的研究成果。

1977年，巴托博士在麻省大學阿默斯特分校擔任研究員時，開始探索一種新的理論，即神經元的行為類似於享樂主義者。其核心理念是，人類大腦由數十億個神經細胞驅動，每個神經細胞都在努力將愉悅感最大化，痛苦感最小化。

一年後，薩頓博士加入他的行列。他們共同努力，將這個簡單的概念應用於AI領域，催生了「強化學習」——一種讓AI系統從數位世界的「愉悅」與「痛苦」中學習的方法。

AlphaGo、ChatGPT背後功臣

2016年，AlphaGo擊敗圍棋世界冠軍李世乭，震驚全球。這場AI的「登月時刻」正是強化學習的威力展現。Google DeepMind團隊核心成員大衛·席爾瓦（David Silver）正是薩頓博士在亞伯達大學的學生。透過數百萬次的自我對弈，系統建立起「勝者愉悅-敗者痛苦」的回饋機制，最終突破人類千年圍棋智慧。

這種學習模式在ChatGPT等大型語言模型中持續進化。2022年底，OpenAI透過「人類回饋強化學習」（RLHF）技術，讓數百名標註員引導模型優化應答。當聊天機器人學會辨別優質回答並獲得「獎賞」時，其對話能力產生了質的飛躍。近期，DeepSeek等企業更開發出自主強化學習系統，使AI能像解數學題般，透過試錯掌握邏輯推理能力。

現年76歲的巴托教授指出：「透過強化學習控制物理軀體，將是自然演進的下個階段。」目前任職於Keen Technologies的薩頓博士也認為，當前基於文字的學習只是序章，未來機器人將在真實世界中像生物般試錯成長。

巴托博士和薩頓博士的貢獻，不僅為AI領域帶來了革命性的突破，也為我們描繪了AI發展的無限可能。