FB 建議貼文

選取貼文複製成功!

2024年圖靈獎揭曉!AI強化學習先驅獲殊榮,AlphaGo、ChatGPT幕後功臣

2024年圖靈獎揭曉!AI強化學習先驅獲殊榮,AlphaGo、ChatGPT幕後功臣

全球電腦科學界最高榮譽「圖靈獎」於2024年頒發給兩位人工智慧(AI)領域的先鋒:安德魯·巴托(Andrew Barto)博士和理查德·薩頓(Richard Sutton)博士,以表彰他們在「強化學習」領域的開創性貢獻。

美國電腦協會(ACM)於週三正式宣布此消息。巴托博士現為麻省大學榮譽退休教授,薩頓博士則任職於亞伯達大學,並曾擔任DeepMind研究科學家。兩人將共同分享100萬美元的獎金。圖靈獎設立於1966年,被譽為「電腦科學界的諾貝爾獎」。

「他們是強化學習領域無庸置疑的先驅。」華盛頓大學電腦科學榮譽退休教授奧倫·埃特齊恩(Oren Etzioni)表示,「他們提出了關鍵概念,並撰寫了該領域的權威著作。」

強化學習推動AI發展

在過去十年中,強化學習在AI的崛起中扮演了至關重要的角色,包括Google的AlphaGo和OpenAI的ChatGPT等突破性技術,都得益於巴托博士和薩頓博士的研究成果。

1977年,巴托博士在麻省大學阿默斯特分校擔任研究員時,開始探索一種新的理論,即神經元的行為類似於享樂主義者。其核心理念是,人類大腦由數十億個神經細胞驅動,每個神經細胞都在努力將愉悅感最大化,痛苦感最小化。

一年後,薩頓博士加入他的行列。他們共同努力,將這個簡單的概念應用於AI領域,催生了「強化學習」——一種讓AI系統從數位世界的「愉悅」與「痛苦」中學習的方法。

AlphaGo、ChatGPT背後功臣

2016年,AlphaGo擊敗圍棋世界冠軍李世乭,震驚全球。這場AI的「登月時刻」正是強化學習的威力展現。Google DeepMind團隊核心成員大衛·席爾瓦(David Silver)正是薩頓博士在亞伯達大學的學生。透過數百萬次的自我對弈,系統建立起「勝者愉悅-敗者痛苦」的回饋機制,最終突破人類千年圍棋智慧。

這種學習模式在ChatGPT等大型語言模型中持續進化。2022年底,OpenAI透過「人類回饋強化學習」(RLHF)技術,讓數百名標註員引導模型優化應答。當聊天機器人學會辨別優質回答並獲得「獎賞」時,其對話能力產生了質的飛躍。近期,DeepSeek等企業更開發出自主強化學習系統,使AI能像解數學題般,透過試錯掌握邏輯推理能力。

現年76歲的巴托教授指出:「透過強化學習控制物理軀體,將是自然演進的下個階段。」目前任職於Keen Technologies的薩頓博士也認為,當前基於文字的學習只是序章,未來機器人將在真實世界中像生物般試錯成長。

巴托博士和薩頓博士的貢獻,不僅為AI領域帶來了革命性的突破,也為我們描繪了AI發展的無限可能。

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則