ADVERTISEMENT
人類擅長分析事物。但機器甚至更強。機器可以分析一組資料,並找出其中存在的、適用大量用例的模式,不管這些用例是欺詐還是垃圾郵件檢測,預測交付的 ETA (估計到達時間),或預測接下來要展示什麼樣的 TikTok 影片給你。它們在執行這些任務上正變得越來越聰明。這就是所謂的「分析人工智慧」(Analytical AI)或傳統人工智慧。
但人類不僅擅長於分析事物——我們還擅長於創造。我們會寫詩、能設計產品、開發遊戲和編寫程式碼。直到最近,在創造性的工作上,機器還沒有機會與人類掰掰手腕——它們只能從事分析性的以及死記硬背的認知勞動。但是現在機器正在開始擅長創作出感性和美麗的東西。這個新類別被稱為「生成式人工智慧」(Generative AI),也就是說,機器正在產生新的東西,而不是分析已經存在的東西。
ADVERTISEMENT
生成式人工智慧不僅正在變得更快、更便宜,而且在某些情況下創作出來的東西甚至比人類做出來的還要好。從社群媒體到遊戲,從廣告到建築,從編碼到平面設計,從產品設計到法律,從市場行銷到銷售,每一個需要人類原創性工作的行業都面臨著重塑。這些行業的部分職能可能會被生成式人工智慧完全取代,而在人機協同帶來的反覆運算得更頻繁的創作迴圈的作用下,其他一些職能更有可能會蓬勃發展——但在廣泛的終端市場上,生成式人工智慧應該會釋放出更好、更快、更便宜的創造力。我們的夢想是,生成式人工智慧將把創作和知識工作的邊際成本降為零,從而創造出極高的勞動生產率和經濟價值——以及相應龐大的市值。
生成式人工智慧涉及的領域——知識工作和創造性工作——牽涉到數十億工人。生成式人工智慧可以讓這些工人的效率和/或創造力至少提高 10%:他們不僅能變得更快、更有效率,而且比以前能力更強。因此,生成式人工智慧有產生數萬億美元經濟價值的潛能。
為什麼是現在?
生成式人工智慧與更廣泛的人工智慧都有一樣的「為什麼是現在」:更好的模型、更多的資料、更多的運算。這一類別的人工智慧的變化日新月異,我們甚至都無法全都捕捉下來,但概述其最近的歷史,好將當下放在一個合適的背景下去理解是值得的。
ADVERTISEMENT
第 1 波浪潮:小型模型主宰時期(2015 年之前)
5 年多前,小型模型被認為是理解語言「最先進」的模型。這些小型模型擅長分析任務,並被部署到從預測交貨時間到欺詐分類的各種工作上。不過,對於通用的生成任務來說,它們的表現還不夠好。產生與人類水準相當的文章或程式碼仍然是白日夢。
第 2 波浪潮:規模競賽(2015 年至今)
Google Research 發表了一篇具有里程碑意義的論文(Attention is All You Need),裡面描述了一種新的,用於自然語言理解的神經網路架構,叫做 transformers,它可以生成高品質的語言模型,同時該模型還具備了更高的可並行性對訓練時間的要求明顯減少。這些模型是小樣本學習器,可以相對容易地針對特定領域進行定制化。
ADVERTISEMENT
隨著模型變得越來越大,其表現開始與人類水準相當,然後就會超越人類,這是必然的。從 2015 年到 2020 年,用於訓練這些模型的計算量增加了 6 個數量級,在手寫、語音和圖像辨識、閱讀理解和語言理解方面的結果已經超過了人類的性能基準。 其中OpenAI 的GPT-3 脫穎而出:與GPT-2相比,GPT-3 模型的性能有了巨大飛躍,為大家在 Twitter 提供了從程式碼產生到諷刺笑話寫作等任務的誘人演示。
儘管這些基礎研究有了進展,但這些模型並不普遍。它們很龐大且很難跑起來(需要協調 GPU),沒法讓大家廣泛存取(不可用或僅限封閉測試版),而且當作雲端服務使用的成本很高。儘管存在諸多限制,但最早的生成式人工智慧應用已經開始加入競爭。
隨著 AI 模型的規模越來越大,它們的表現已經開始超越主要的人類性能基準。
ADVERTISEMENT
第 3 波浪潮:更好、更快、更便宜(2022 年及之後)
運算變得更便宜。新的技術,如擴散模型(diffusion models),降低了訓練和運行推理所需的成本。研究界繼續開發出更好的演算法和更大的模型。開發者的存取權限從封閉測試版擴展到公開測試版,而且在某些情況下甚至是開源的。
對於一直沒法訪問 LLM (大型語言模型)的開發者來說,面向探索和應用開發的閘門現在已經打開。應用開始遍地開花。
第四波浪潮:殺手級應用出現(現在)
隨著平臺層的鞏固,模型繼續變得更好/更快/更便宜,模型存取趨於免費和開源,應用層已經成熟,創造力已經蓄勢待發。
就像行動設備透過 GPS、攝影鏡頭和行動連接等新功能釋放了新型app的活力一樣,我們預計這些大型模型將激發新一波的生成式人工智慧應用。正如十年前移動的反曲點為少數殺手級app打開了市場一樣,我們預計生成式人工智慧的殺手級應用也會出現。競賽正在進行中。
就像行動設備透過 GPS、攝影鏡頭和行動連接等新功能釋放了新型app的活力一樣,我們預計這些大型模型將激發新一波的生成式人工智慧應用。
市場格局
下面的示意圖概述了將為每一類別提供支援的平臺層以及可在其基礎上開發的潛在應用類型。
模型
- 文本是進展最大的領域。不過,自然語言很難做到正確,而品質很重要。今天,這些模型已經非常擅長一般題材的短/中篇寫作(但即便如此,一般也是用來反覆運算或作為初稿)。隨著時間的推移,隨著模型變得更好,應該可以預期會看到更高品質的輸出、更長形式的內容和更好的垂直向內容。
- 正如 GitHub 的 CoPilot 所表明的那樣,程式碼生成可能在短期內對開發者的生產力產生重大影響。它還將讓非開發者更容易獲取程式碼的創造性使用。
- 生成是較新的現象,但現在已經獲得了病毒式傳播:在 Twitter 上分享的生成圖像要比文字更有趣!我們正在看到具有不同審美風格的圖像生成模型出現,以及用於編輯和修改生成圖像的不同技術出現。
- 語音合成的出現已有一段時間(你好 Siri !),但消費者和企業應用正在變得越來越好。對於像電影和PODCAST這樣的高階應用而言,要想即時產生聽起來沒那麼機械化,像人類發音的語音的門檻相當高。但就像圖像一樣,今天的模型為實用應用的進一步細化或最終輸出提供了一個起點。
- 影片和 3D 模型在這條曲線上升得很快。大家對這些模型釋放電影、遊戲、VR、建築和實體產品設計等大型創意市場的潛力感到興奮。正如我們所說那樣,研究機構正在發佈基礎的 3D 和影片模型。
- 其他領域:從音訊和音樂到生物學和化學(生成蛋白質和分子,有人知道嗎?),許多領域都在進行基礎模型的研發。
下圖說明瞭我們也許可以預期看到的基礎模型的進展,以及相關應用成為可能的時間表。 2025 年及以後的情況只是猜測。
應用
以下是部分我們頗感興奮的應用。但實際的應用遠不止所列舉的這些,創始人和開發者想像出來的創意應用讓我們著迷。
- 文案:為了推動銷售和行銷策略以及提供客戶支援,對個性化網路和電子郵件內容的需求在不斷增長,這些都是語言模型的完美應用。措辭的簡短形式和風格化,加上這些團隊的時間和成本壓力,應該會推動對自動化和增強解決方案的需求。
- 垂直向的寫作助理:當今大多數寫作助理都是水平型的;我們相信有機會針對特定的終端市場構開發出更好的生成應用領域,例如法律合約寫作,劇本寫作等。這裡的產品差異化方向是針對特定工作流程對模型和UX模式進行微調。
- 產生程式碼:當前的應用讓開發者如虎添翼,提高了他們的生產力:在安裝了 GitHub Copilot 的項目裡面,有近 40% 的程式碼都是這個程式碼助手產生的。但更大的機會也許是讓消費者獲得了編碼的能力。學習如何給出提示可能會成為終極的高級程式設計語言。
- 生成藝術:藝術史與流行文化的整個世界現在都已經被編碼進這些大型模型裡,任何人都可以任意探索以前需要一生才能掌握的主題和風格。
- 遊戲:做這一行的夢想是用自然語言創建可操縱的複雜場景或模型;要想到達那個最終狀態可能還有很長一段路要走,但有些更直接的選項在短期內更為可行,比方說產生紋理和天空盒藝術(skybox art)。
- 媒體/廣告:想像一下,如果可以將公司公司的工作自動化,針對消費者動態優化廣告文案和創意,那會有多大的潛力。這裡是多模態生成的絕佳機會,可以將銷售資訊與互補的視覺效果結合在一起。
- 設計:對數位和實體產品進行原型設計是一個勞動密集型的反覆運算過程。來自粗略草圖和提示的高擬真算繪已經成為現實。隨著 3-D 模型變得可用,生成式設計過程將延伸到製造和生產——從文本到物件。你的下一個 iPhone 應用程式或運動鞋可能是由機器設計的。
- 社群媒體和數字社群:有沒有用生成工具表達自我的新方式?隨著消費者學會在公共場合創作,像 Midjourney 這樣的新應用正在創造新的社群體驗。
生成式人工智慧應用剖析
生成式人工智慧應用會是什麼樣子?以下是一些預測。
智慧及模型微調
生成式人工智慧應用是基於 GPT-3 或 Stable Diffusion 等大型模型之上開發出來的。隨著這些應用拿到了更多的使用者資料,就可以對模型進行微調,從而:
- 針對特定問題領域提高模型的品質/性能;
- 降低模型規模/成本。
我們可以將生成式人工智慧應用看作是 UI 層和位於大型通用模型「大大腦」(big brain)之上的「小大腦」(little brain)。
形態因數
如今,生成式人工智慧應用主要作為現有軟體生態體系的外掛程式而存在。程式碼補全發生在你的 IDE 裡;圖像生成發生在 Figma 或 Photoshop 上;甚至 Discord 機器人也是將生成式人工智慧注入到數位/社交社群的工具。
還有少量獨立的生成式人工智慧 web 應用,比方說用於文案寫作的 Jasper 和 Copy.ai、用於影片編輯的 Runway 以及用於記筆記的 Mem。
外掛程式可能是讓應用發展起來的有效楔子,利用外掛程式也許是一個很精明的辦法,說不定能克服使用者資料與模型品質的這個「先有雞還是先有蛋」的問題(應用需要分發,從而獲得足夠多的使用來改進模型;但要想吸引使用者,你需要一個好的模型)。我們已經看到這種分發策略在其他市場類別得到了回報,比方說消費者/社群領域。
互動典範
今天,大多數生成式人工智慧的演示都是「一次性」(one-and-done)的:給一個輸入,機器就吐出一個輸出,你可以保留這一輸出,或者選擇丟棄,然後再試一次。但模型的反覆運算性症狀越來越強,也就是對輸出可以修改、優化、升級以及派生出不同的生成結果。
現如今,生成式人工智慧輸出被當作原型或初稿使用。這類應用非常擅長提出多種不同的想法,從而讓使創意過程得以繼續進行(比方說,logo 或建築設計的不同選項),而且它們還非常擅長就需要使用者細化處理才能達到最終狀態的初稿(比方說部落格文章或程式碼自動完成)提出建議。部分在使用者資料的支援下,隨著模型變得越來越智慧,我們應該可以預期這些草稿會變得越來越好,直到好到可用作最終產品。
持續的品類領導力
最好的生成式人工智慧公司可以通過不斷地推動使用者參與/資料和模型性能這個飛輪的旋轉來製造可持續的競爭優勢。為了獲勝,團隊必須讓這個飛輪轉起來:1、做到出色的使用者參與 → 2、將更多的使用者參與轉化為更好的模型性能(及時改進、模型微調、使用者選擇作為標記的訓練資料)→ 3、用出色的模型性能來推動更多使用者增長和參與。他們可能會進入特定的問題領域(比方說,程式碼、設計、遊戲),而不是試圖成為適用所有人的通用產品。他們可能會先深度集成到應用之中,去借勢和分發,然後嘗試用人工智慧原生工作流替換現有的應用。用正確的方式開發這些應用,從而積累使用者和資料需要時間,但我們相信最好的應用會具有持續性,而且有機會變得規模龐大。
阻礙與風險
儘管生成式人工智慧很有潛力,但在商業模式和技術方面還有很多問題需要解決。關於版權、信任與安全以及成本等重要問題遠未解決。
睜大眼睛
生成式人工智慧前面的路還很長。平臺層剛剛開始變好,但應用領域幾乎還沒有啟動。
需要明確的是,我們不需要大型語言模型來寫出一部托爾斯泰小說才能讓生成式人工智慧物盡其用。這些模型在今天已經足以寫出部落格文章的初稿,創作出 logo 以及產品介面的原型。中短期內可創造出大量價值。
第一波生成式人工智慧應用類似 iPhone 剛問世時的移動 app 的環境——有點噱頭,不太靠譜,競爭差異化和商業模式尚不明確。不過,其中一些應用讓我們得以一窺未來可能會出現的情形。一旦你看到一台機器產生複雜的功能程式碼或精美的圖像,就很難想像未來機器不會在我們的工作和創作的手段上發揮根本性的作用。
如果我們允許自己夢想一下幾十年後的情形,那麼很容易想像生成式人工智慧會深度嵌入到我們的工作、創造和娛樂方式的未來:會自己寫的備忘錄;3D列印任何你能想像到的東西;將文字變成一部皮克斯電影;類似於 Roblox 那樣的遊戲體驗,能夠以我們想像的速度快速生成豐富的世界。雖然這些體驗在今天看起來就像科幻小說一樣,但發展的速度非常快——在幾年之內,我們已經從狹義的語言模型發展到程式碼自動完成——如果這種變化速度得以延續,能遵循「大型模型的摩爾定律」的話,那麼這些難以置信的場景也許就會進入可能性的領地。
PS:這篇文章是與 GPT-3 共同編寫的。 當然,整篇文章不是都是由 GPT-3 產生的,但它負責對抗作家的文字,產生完整的句子和段落文本,並且為生成式人工智慧頭腦風暴出不同的用例。用 GPT-3 寫這篇文章能讓人很好地體驗一把人機共同創作的互動,這可能會形成新常態。我們還用 Midjourney 為這篇文章製作了插圖,不得不說,這很有趣!
ADVERTISEMENT