ADVERTISEMENT
在過去幾天,一個名為「Deep-Live-Cam」的軟體在社群媒體上爆紅,因為它可以從一張照片中提取一個人的臉部,並將其應用到即時網路攝影鏡頭視訊源上,同時跟著網路攝影鏡頭上的人所做的姿勢、光線和表情進行模擬。雖然結果還不完美,但該軟體展示了這項技術發展的速度之快,以及遠端欺騙他人的能力如何變得越來越容易。
「Deep-Live-Cam」軟體專案自去年年底開始開發,但最近展示某人即時模仿伊隆·馬斯克和共和黨副總統候選人J.D.萬斯等人的影片在網路上廣為流傳。大量的關注讓這個開源專案在當時一度躍升至GitHub熱門榜單的第一名,該軟體可在GitHub上免費下載。
「奇怪的是,最近科技界的所有重大創新都點在『詐欺』技能樹,」插畫家柯瑞·布里克利(Corey Brickley)在一條X發文中對Deep-Live-Cam的示範影片做出了回應。在另一篇文章中,他寫道:「好吧,記住要和你的父母建立暗號,各位」,指的是類似的工具可能被用於遠端欺騙,以及使用朋友和家人之間共享的安全詞這個概念,以確立你的真實身份。
ADVERTISEMENT
換臉技術並不是什麼新東西。「deepfake」這個詞本身起源於2017年,來自一位名叫「deepfakes」的Reddit使用者(結合了「深度學習」和「假貨」兩個詞),發布了一些將演員臉替換成名人臉的色情視頻。當時,這項技術成本高且速度慢,不能即時操作。然而,由於像Deep-Live-Cam這樣的專案,任何人都可以更容易地在家裡使用普通的電腦和免費的軟體來使用這項技術。
ADVERTISEMENT
deepfake的危險也不是新鮮事。今年二月,媒體報導了香港一起涉嫌搶劫案,有人在視訊通話中冒充一家公司的首席財務長,騙走了超過2500萬美元。聲音deepfake也導致了其他金融欺詐或勒索計劃。隨著易於獲得的即時deepfake軟體的出現,我們可能會預計遠端視訊欺詐的案例會增加,而且不僅僅是名人或政治人物會受到影響。
使用換臉軟體,不懷好意的人可以從社群媒體上獲取你的照片,並冒充你與他人進行互動,尤其是那些不太熟悉你外貌和行為的人。儘管目前仍需模仿類似的舉止、聲音、髮型、服裝和體型,但用來複製這些外貌和聲音的技術(如聲音複製和影片圖像到圖像的AI合成技術)也已經存在,儘管尚未達到可靠的即時寫實效果。然而,隨著時間的推移,這類技術很可能會變得更容易獲取且更易於使用。
這項技術如何運作?
像許多GitHub上的開源專案一樣,「Deep-Live-Cam」將幾個現有的軟體包整合到一個新的介面下(它本身就是一個早期專案「roop」的分支)。它首先檢測源圖像和目標圖像(例如即時視訊的一格)中的面部。然後,它使用一個名為「inswapper」的預訓練AI模型來執行實際的換臉,並使用另一個名為「GFPGAN」的模型透過增強細節和修正換臉過程中出現的瑕疵來提高換臉的品質。
ADVERTISEMENT
「inswapper」模型由InsightFace專案所開發,它能夠根據提供的照片推測一個人在不同表情和角度下的樣子,因為它是基於包含數百萬張來自不同角度、不同光線條件和多種表情的數千人臉部圖像的龐大數據集進行訓練的。
在訓練過程中,「inswapper」模型底層的神經網路發展了對面部結構及其在各種條件下的動態的「理解」,包括學習從2D圖像推斷人臉3D結構的能力。它還能夠將不同的人的圖像中保持不變的身份特定特徵與隨角度和表情變化的姿勢特定特徵分離開來。這種分離允許模型生成新的面部圖像,將一張臉的身份與另一張臉的姿勢、表情和光線結合起來。
ADVERTISEMENT
「Deep-Live-Cam」遠不是唯一的換臉軟體專案。另一個GitHub專案「facefusion」使用相同的換臉AI模型,但介面不同。
這些專案大多依賴於一個包含Python和深度學習庫(如PyTorch)在內的網路,因此「Deep-Live-Cam」還不是一個可以一鍵安裝的軟體。然而,隨著時間的推移,這類臉部替換功能可能會變得更加容易安裝,並隨著人們在開源AI開發空間中不斷迭代和互相借鑑而不斷提高品質。
ADVERTISEMENT