人工智慧(AI)欺騙人類,能有多容易?未來又會有多普遍?上個月,一則「馬斯克親吻機器人女友」的推文在網上引發了人們的激烈討論。在一組圖片中,馬斯克正在親吻一個栩栩如生的機器人。
然而,經核實,這張圖像卻是個人使用 AI 繪圖神器 Midjourney 建立的。
儘管難以置信,但它成功地欺騙了幾個 AI 圖像檢測工具。
這些工具能夠檢測嵌入在 AI 生成圖像中難以識別的標記,旨在幫助提高透明度和問責制,標記錯誤資訊、欺詐、未經同意的色情內容、藝術欺詐和其他濫用該技術的行為。
對此,芝加哥大學 AI 專家譚宸浩表示,「總體來說,我認為這些檢測工具無法完全奏效,而且它們的未來也並不樂觀。」
Hive 創始人兼首席執行長 Kevin Guo 認為,當前 AI 圖像檢測工具難以處理已經改變的原始作品或品質較低的圖像,這種缺陷可能會削弱其打擊虛假內容的潛力。
近日,另一類新聞則更加讓人震驚。
據 BBC 報導,戀童癖者正在利用 AI 製作和非法交易兒童性虐待內容。這些與真實圖像並無差別的兒童性虐待「偽圖像」大多由 Stable Diffusion 生成。
負責兒童保護事務的 NPCC 負責人 Ian Critchley 表示,戀童癖者可能會「從想像到合成再到真正虐待兒童」。
美國內容共享網站 Patreon 負責人表示:「我們已經禁止上傳人工智慧生成的兒童剝削內容,並利用專門的團隊、技術和合作夥伴來確保青少年的安全。」
如今,這類 AI 生成內容擾亂現實世界的案例比比皆是,而且不只是圖像,由 AI 模型生成的文字同樣具有誤導性和欺騙性。
那麼,在大型語言模型(LLMs)引領的 AI 新時代,個人如何區分虛假資訊和精準資訊,進而保護自己的財產和生命安全呢?又能不能很容易地做到?
一項最新研究揭示了一個更加糟糕的事實:由大型語言模型產生的內容可能比人類更具誤導性和欺騙性。
相關研究論文以「AI model GPT-3 (dis)informs us better than humans 」為題,已發表在科學期刊 Science 上。
在這項研究中,蘇黎世大學 Federico Germani 團隊通過實驗測試了 697 名參與者(母語為英語、年齡主要在 26 至 76 歲之間)是否能夠區分人類和 OpenAI 推出的 GPT-3 創作的虛假資訊和精準資訊。這些內容涉及疫苗、自閉症、5G 和氣候變化等常被公眾誤解的話題。
研究人員收集了 Twitter 上人類創作的內容,並指示 GPT-3 模型生成包含精準和不精準資訊的新Twitter。然後,他們要求參與者判斷 Twitter 內容的真假,並確定它們是由人類還是 GPT-3 生成的。
參與者普遍能夠識別人類創作的虛假資訊和 GPT-3 生成的真實 Twitter。然而,他們也更有可能認為 GPT-3 生成的虛假資訊是精準的。
實驗結果顯示,相比於人類,GPT-3 在向社群媒體使用者傳遞資訊時更具誤導性和欺騙性。這表明,當涉及到引導或誤導公眾時,AI 語言模型可以有多麼強大。
此外,Germani 等人還發現,在識別精準資訊方面,GPT-3 表現比人類要差,而在發現虛假資訊方面,人類和 GPT-3 的表現相似。
對此,該研究的作者之一、蘇黎世大學生物醫學倫理和醫學史研究所博士後研究員 Giovanni Spitale 警告道:「這類技術非常驚人,可以很容易地被用來做壞事,在你選擇的任何主題上產生虛假資訊......」
但 Spitale 認為,人類有辦法開發相關技術,用「魔法打敗魔法」,使 AI 大型語言模型不易傳播錯誤資訊, 「技術本身並不是邪惡或善良的,它只是人類意圖的放大器。」
根據 Spitale 的說法,打擊虛假資訊的最佳策略非常簡單,即鼓勵人類培養批判性思維,以便更好地辨別事實與虛構。擅長事實核查的人可以與 GPT-3 等語言模型一起工作,從而改善合法的公共資訊。
然而,該研究存在一定的侷限性。例如,參與者人數相對較少,且只是英語母語者;以及參與者無法查看撰寫該內容的使用者資料,也無法查看使用者過去的推文等。
- 延伸閱讀:Stability AI 宣布開始測試 Stable Diffusion XL 1.0 候選版,文字生成圖像更穩定、更高效
- 延伸閱讀:OpenAI 宣布向開發者升級 GPT-4 API,同步開放 DALL-E 和 Whisper API
- 延伸閱讀:AI翻車報告:近12年AI事故暴漲了15 倍,Meta、特斯拉、OpenAI 居前三名
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!