Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

製作一集像這樣的動畫,你覺得需要多久?

在傳統動漫行業裡,動畫製作往往是費時最多的一個環節,動畫師們要根據分鏡指令碼和美術設計,製作各個鏡頭的動畫效果。從設計角色到描繪場景,再製成動畫,一個製作團隊往往要花上幾個月甚至一年的時間。但在最近,這條行業定律正在被 AI 工具重新改寫。

你現在看到的這部動畫短片包含了 120 個視覺效果鏡頭,總時長為 7 分鐘,而其製作團隊 Corridor 在動畫製作上只花了幾個小時。效率的秘密就藏在他們用的工具—— Stable Diffusion 之中。

創造力被再一次釋放

眾所周知,動畫裡的每一個運動鏡頭都是由畫師們逐幀畫出的連續運動圖畫拼湊而成,每集動畫的背後幾乎都是由成千上萬張畫稿堆積而成。

用人手逐幀繪製動畫對 Corridor 來說幾乎是不可能完成的任務,於是他們想到了另一種制畫思路:攝影機拍攝畫面本質上也是一幀幀的照片,如果將其逐幀轉化為動畫風格再拼接在一起,不就是動畫了嗎?

要批次地把照片轉化成動漫圖畫,Corridor 首先想到的是目前最為流行的 AI 繪圖工具:Stable Diffusion。

與 Dall-E 2、Midjourney 等 AI 繪圖工具相比,Stable Diffusion 的一大優勢在於它是開放原始碼專案,使用者可以在本地配製出最合適的資料庫,讓 AI 定向學習畫畫風格,然後就能批次生出該風格的圖片。

根據提前構想的設定,Corridor 讓 Stable Diffusion 學習了大量《吸血鬼日記》的圖片,以及兩位主演的各個角度照片,使得讓轉化出來的動畫圖片儘可能精準,並且風格趨於統一。

待 Stable Diffusion 將整段影片轉化成動畫風格後,剔除掉一些不穩定的畫面,再加上消除閃爍處理,最後用虛擬相機拍攝的背景替換上綠幕,原本需要十幾個畫師畫幾個星期的動畫就製作完成。

看到這,你是不是也想發揮一下想像力,自己動手拍攝一條動畫短片、或者把自己 P 成各種幻想英雄的模樣?

雖然 Stable Diffusion 有著高可控性等優點,但要想駕馭它,首先你需要在伺服器端或本地端一個強大的計算環境供它運行。

換句話說,如果你空有想像力,而沒有強大的自然語言學習和處理能力,以及 AI 算力作為支援,照樣不能用 Stable Diffusion 創作。

那麼,有沒有一種方式,能讓普通人也能輕鬆自己畫出一個獨一無二的頭像呢?

還真有,而且只要「有手機就行」。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

Android手機也能跑 Stable Diffusion

在 MWC 大會上,高通首次展示了在 Android 手機上本地運行的 Stable Diffusion,還展示了多張在手機端側生成的 AI 圖片,效果看起來還挺不錯,且整個過程只需要不到 15 秒。

Stable Diffusion 的參數超過 10 億,普通的電腦跑起來都很吃力,高通是怎麼把如此龐大的模型「塞」進手機里,並讓它在手機的 SoC 上也能順利運行呢?

為了「把大象放進冰箱」,高通的工程師首先對大象進行最佳化。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

在這裡,首先要提一下第二代驍龍 8 平台在 AI 方面的一項重大提升,自然語言處理(NLP)。

自然語言處理是 AI 應用的全新領域之一,為了儘可能快速地理解和分解人類語言,高通顯著提升了 Hexagon 處理器並增加硬體加速,能夠更加快速高效地運行 Transformer 網路,並通過微切片推理降低功耗,使第二代驍龍 8 在自然語言處理用例上顯示出獨特的優勢。

為了能夠讓 Stable Diffusion 實現在終端側運行,高通工程師們選擇從 Hugging Face 的 FP32 1-5 版本開源模型入手,使用高通 AI 模型增效工具包(AIMET)對其進行訓練後量化,在不犧牲模型精度的情況下,把原本的 FP32 模型壓縮為計算效率更高的 INT8 格式。

通過高通所推出的統一 AI 軟體解決方案高通 AI 軟體棧,高通能夠在不損失模型精度的情況下量化精簡 AI 模型,大幅提高 AI 推理性能,還能降低功耗,使大型 AI 模型能夠更加適應手機等終端側低功耗計算環境,讓 AI 模型的終端側擴展變得更加簡單。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

通過軟體和硬體全端最佳化,Stable Diffusion 最終得以在內建了 Hexagon 處理器的第二代驍龍 8 移動平台上運行,在 15 秒內執行 20 步推理,生成一張 512×512 像素的圖像,這樣的速度已經足以和雲端計算的時延相媲美。

也就是說,雲端大型生成式 AI 模型已經邁出了終端側應用擴展的第一步。

雖然你還不能像 Corridor 那樣用 Stable Diffusion 拍大片,但是用它來給自己畫頭像、拍虛擬寫真已經綽綽有餘。無論你想要莫內、梵谷還是鳥山明畫風的自畫像,直接在手機上輸入指令,就能一鍵生成獨一無二的 AI 作品。

未來,或許還將有數百億參數規模的 AI 模型能夠得以在終端側運行,你手機上的 AI 助手智慧能力將會快速提升。生成式 AI 模型終端側部署所帶來的可能性超乎想像。

水到渠成的技術爆發

提起 AI 計算,很多人第一時間想到的可能是大型雲端伺服器,AI 似乎離我們的生活很遠。但實際上,你每一次解鎖手機、喚醒語音助手、甚至隨手按下快門,都是一次與 AI 計算的親密接觸。

由於在包括手機在內的終端側進行 AI 處理在可靠性、延時、隱私等方面有著諸多優勢,越來越多的 AI 雲端大模型開始轉向終端側上運行。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

如今,AI 計算已經伴隨終端部署滲透進我們生活的方方面面,在智慧型手機、平板電腦、XR 眼鏡甚至汽車等終端產品上你都能輕易地找到 AI 的身影。這是高通一直在打造的智慧網聯邊緣願景,為此高通已經默默努力了十餘年。

將 AI 從雲帶到終端,可以一次性解決使用者兩個痛點需求:一方面,終端處理的資料可以保留在終端裝置上,使用者個人資料隱私得到妥善保護。另一方面,終端裝置可以及時進行計算處理,為使用者提供低延時、可靠的處理結果。

高通此次在 Android 手機上率先部署 Stable Diffusion,不僅給使用者提供了隨時隨地進行 AI 創作的可能性,也讓未來的圖像編輯充滿了想像力。

Stable Diffusion 模型編碼了大量語言和視覺知識,通過對模型進行調整,可以為圖像編輯、圖像修復、風格轉換和超解析度等方面帶來切實的影響。

試想一下,未來你可以脫離Internet拍攝出迪斯尼風格、日漫風格的照片或影片,並且一切的圖像計算都僅在手機中進行,既有趣好玩又能守護隱私安全。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

而在高通的技術規劃,這還只是一個開始。此前,高通發佈了一個名為「高通 AI 軟體棧」的解決方案,簡單來說就是只需要開發一次模型,就能在所有不同的終端上進行擴展。

高通在 Stable Diffusion 上取得的研究突破和技術最佳化未來都會融入到高通 AI 軟體棧中,以後只需要在此基礎上對它進行擴展,就能打造出適合 XR 眼鏡、汽車等平台的不同模型,這也被高通稱之為「統一的技術路線圖」。

通過這樣的產品開發路線,高通可以把智慧型手機終端上領先的自然語言處理、臉部辨識等 AI 技術內建到 XR 眼鏡、PC、物聯網、汽車等產品之中,最終為使用者創造新的智慧體驗。如此高靈活性、高效率的開發模式與高通 AI 引擎密不可分。

高通 AI 引擎包含圖形處理單元、CPU、以及最為關鍵的 Hexagon 處理器。

其中 Hexagon 處理器由標量、向量和張量處理器組成,三個加速器使用統一的共用記憶體,高通將張量加速器的計算性能提升了一倍,同時共用記憶體的容量也提升了一倍,使得新一代高通 AI 引擎相比前代在能效比上提升了 70%。

高通 AI 引擎可以靈活地進行硬體拓展,在移動平台上通常會組態一個 Hexagon 處理器使用;在面向汽車、雲和邊緣計算平台時,則可以使用多個 Hexagon 處理器實例來提高算力。

結合領先對手的架構優勢和算力表現,高通可以說用高通 AI 引擎構成了打通智慧型手機、物聯網、XR 眼鏡、汽車等業務的核心。根據高通的設想,AI 計算接下來會繼續朝著完全的分佈式的方向繼續發展,即 AI 推理會從雲端大量轉移到終端側。

例如手機會學習使用者的口音,提高語音的精準率;汽車會學習不同的路況,提高對障礙的識別率等,這些都是 AI 在終端普及的應用案例。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

去年 12 月,高通攜手新晉奧斯卡影后楊紫瓊描繪了這樣一副萬物智慧互聯的未來景象:

在高通 AI 引擎的驅動下,智慧型手機正在變得更聰明。它掌握了專業影像技巧,讓你隨手就能拍出 8K 電影級大場面;它還擁有了自然語言處理能力,能像助手一樣,主動為你提供即時翻譯等定製化服務。

Android手機也能跑 Stable Diffusion,高通 AI 引擎讓每個人的手機都有一個「梵谷」

高通 AI 引擎將使汽車進化成可靠的司機。在未來,汽車能感知你的到來,按你的習慣做出自適應調整;強大的算力帶來了駕駛輔助、情境安全感知和串流媒體娛樂等豐富功能,還可以預見前方路況,改善駕駛體驗,讓你既舒適又安全的抵達目的地。

而 XR 等可穿戴裝置,將為你帶來更具沉浸感的體驗和更直觀的互動,讓你盡情遊走在虛擬與現實世界。

總得來說,當下的我們身處於萬千可能之中,圍繞在我們身邊的 AI 創新正在重塑世界,悄然改變著我們的工作、生活和溝通方式。

目前,智慧型手機是 AI 技術最佳應用平台,但 AI 技術在智慧型手機上的普及只是第一步,未來 AI 技術會變得無處不在,人們的生產力、創作力也將得到更進一步的釋放,而高通早已為此做好了準備。

 

本文轉載自:ifanr

 

ifanr
作者

ifanr依托於中國移動互聯網的發展大潮,用敏銳的觸覺、出色的內容,聚焦 TMT 領域資訊,迅速成為中國最為出色的新銳科技Blog 媒體。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則