OpenAI 和Google都怕這張「開源笑臉」!作為AI 界 Github 的 Hugging Face 推進了 AI 的「民主化」

OpenAI 和Google都怕這張「開源笑臉」!作為AI 界 Github 的 Hugging Face 推進了 AI 的「民主化」

ADVERTISEMENT

「我們沒有護城河,OpenAI 也沒有。」

在最近外流的一份文件中,一位Google內部的研究人員表達了這樣的觀點。這位研究人員認為,在這場激烈的 AI 競賽中,雖然Google與 OpenAI 在你追我趕,但真正的贏家未必會在這兩家中產生,因為有股第三方的力量正在崛起。

這個力量就是「開源社群」,它才是Google和 OpenAI 最大的敵人。

而開源社群的最知名的,當屬 Hugging Face 了。作為一個 AI 領域的 Github,它提供了大量高品質的開源模型與工具,將研發成果最大程度地惠及社群,極大地降低了 AI 的技術門檻,推進了 AI 的「民主化」進程。

它的創始人之一,Clément 還曾公開表示:「在 NLP 或者機器學習領域,最壞的情況,就是要與整個科學界和開源界競爭。因此,我們不再試圖競爭,轉而選擇為開源界和科學界賦能。」

Hugging Face 創立於 2016 年,幾年間連獲 5 輪融資,目前估值已經飆到 20 億美元,Github 上的星標數量已經超過了 9.8w,穩居熱門資源庫之列。

那麼這家公司是做什麼的?是如何逆襲成為開源界的巨星? 它的發展模式又是怎樣的呢? 

NLP 開啟逆襲之路 

Hugging Face 是一家以自然語言處理 (NLP) 技術為核心的 AI 初創公司。

它是由法國連續創業者 Clément Delangue(曾創辦筆記平臺 VideoNot.es,媒體監測平臺 mention 以及被 Google 收購的行移動開發平臺 Moodstocks 等專案)和 Thomas Wolf、Julien Chaumond 一起創辦的,於 2016 年成立,總部設在美國紐約。 

OpenAI 和Google都怕這張「開源笑臉」!作為AI 界 Github 的 Hugging Face 推進了 AI 的「民主化」

 

其中的兩位創始人 Clément Delangue 和 Thomas Wolf 都是自然語言處理領域的專家。在不斷推進 Hugging Face 的發展的過程中,他們被視為當代 NLP 領域的先鋒。

他們創辦 Hugging Face 的初衷,是為年輕人帶來一個「娛樂型」的「開放領域聊天機器人」,就像科幻電影《Her》裡面的 AI 那樣,可以跟人聊天氣、朋友、愛情和體育比賽等各種話題。大家可以在無聊的時候跟它聊八卦、問它問題、讓它產生一些有趣的圖片之類的事情。

也正因如此,Hugging Face 的名字來源於一個張開雙手的可愛笑臉 emoji。 

 

OpenAI 和Google都怕這張「開源笑臉」!作為AI 界 Github 的 Hugging Face 推進了 AI 的「民主化」

2017 年 3 月 9 號,Hugging Face App 在 iOS App Store 正式推出,就得到了不少關注,還拿到了包括 SV Angel、NBA 球星杜蘭特等投資人在內的 120 萬美元的天使投資。

為了訓練這個聊天機器人的自然語言處理(NLP)能力,Hugging Face 構建了一個資源庫來容納各種機器學習模型和各種類型的資料庫,包括説明訓練聊天機器人檢測文本訊息情緒、產生連貫的回應、理解不同對話主題等。

同時,Hugging Face 團隊在 GitHub 上將此庫的免費部分開源,目的是從使用者共創中獲得開發靈感。

到了 2018 年,Hugging Face 仍然不溫不火,便開始免費線上分享應用程式的底層程式碼。這一舉動立即收到了Google、微軟等業內知名科技公司的研究人員的積極回應,他們開始將這些程式碼用於 AI 應用程式,這個笑臉 emoji 也開始被廣大 AI 開發者們所熟知。

恰巧同年,Google推出基於雙向 Transformer 的大規模預訓練語言模型 BERT,開啟了 AI 模型的大競爭時代。

在這樣的大環境下,Hugging Face 做起了提供 AI 模型的服務,隨之迎來了自己的「黃金時代」。

它先是開源了 PyTorch-BERT;隨即,又整合了它先前貢獻的 NLP 領域的預訓練模型,發表了 Transformers 庫。

Transformers 庫提供了數以千計的預訓練模型,支援 100 多種語言的文本分類、資訊抽取、問答、摘要、翻譯、文本生成。借助 Transformers 庫,開發者可以便捷地使用 BERT、GPT、XLNet、T5 、DistilBERT 等 NLP 大模型,來完成文本分類、文本總結、文本生成、資訊抽取、自動 QA 等 AI 任務,節省大量的時間和計算資源。

簡而言之,Transformers 庫提供直接可用的模型,無需企業再度開發;因此,眾多企業開始借助 Transformers 庫,將模型應用到產品開發和工作流程中。

Transformers 庫也因此迅速地流行起來,成為了 GitHub 史上增長最快的 AI 專案。 

Hugging Face 在 Github 上的 Star 曲線。圖片來源: Lux Capital

Hugging Face 的創始人之一 Clément Delangue 也不禁感慨,「我們發表東西時沒有考慮太多,而社群的爆炸式增長甚至讓我們感到驚訝。」

面對如此多的開發者,Hugging Face 順理成章地建立了自己的社群,Hugging Face Hub;同時,調整產品戰略,不再局限於自然語言處理,而是將機器學習的不同領域進行融合,探索創建新的用例,著手構建一套完整的開源產品矩陣。

截至 2023 年 4 月,Hugging Face 共用了 16,6894 個訓練模型,2,6900 個資料集,涵蓋 NLP、語音、生物學、時間序列、電腦視覺、強化學習等領域,搭建了完整的 AI 開發生態。

這大大降低了相關研究與應用的門檻,讓 Hugging Face 成為 AI 社群最具影響力的技術供應商。

目前,這些模型已經服務了數萬家企業進行資源開發,幫助科研人員和相關從業人員更好地構建模型、更好地參與到產品和工作流程中,其中不乏 Meta、亞馬遜、微軟、谷歌等知名 AI 團隊。 

使用 Hugging Face 的公司和產品。Hugging Face

在資本市場,Hugging Face 也同樣備受青睞。

在 2022 年 5 月,團隊完成了由 Lux Capital 領投、紅杉資本參投的 1 億美元 C 輪融資,估值狂飆到 20 億美元。

面對資本的追捧,Hugging Face 的創始人表現的極其冷靜,表示拒絕了多個「有意義的收購邀約」,並且不會像 GitHub 那樣出售自己的業務。關於 Hugging Face 的未來,它的創始人還有一些有趣的想法:「我們希望成為第一家以表情符號上市的公司,而不是三個字母的股票程式碼。」 

AI 大模型的 Github 

憑藉開源獲得了萬眾矚目的 Hugging Face,也格外注重社群的建設,而剛剛誕生不久的 Hugging Face Hub,現在儼然已經成為 AI 開發者的大本營。

Hugging Face Hub 是一個探索、實驗、合作,並建立機器學習技術的中心場所。在這裡任何人都可以分享和探索模型、資料集等,大家輕鬆合作,共同構建機器學習模型,Hugging Face Hub 也因此被稱做「機器學習之家」。

它是 Hugging Face 堅持「開源」的產物,也是它的核心。正如官網的宣傳語所述:AI 社群,建設未來。

Hugging Face 的開發者頁面。Hugging Face

 

Hugging Face 的創始人曾公開表示「Hugging Face 的目標是透過工具和開發者社群,讓更多的人使用自然語言處理工具,達成他們的創新目標,讓自然語言處理技術更容易使用和存取。」

他還補充說,「沒有任何一家公司,包括科技巨頭,能夠獨自『解決 AI 問題』,而我們實現這一目標的唯一途徑,是透過以社群為中心的方式,分享知識和資源。」

因此,公司致力於在 Hugging Face Hub 上建立最大的模型、資料集、示範和指標的開源集合,以使每個人都能利用機器學習進行探索、實驗、合作和構建技術,進而實現 AI「民主化」的目標。

目前,Hugging Face Hub 提供超過 12 萬個模型(Models)、2 萬個資料集(Datasets) 和 5 萬個示範應用程式(Spaces),而且所有這些都是開源、公開、免費的。 

Hugging Face 提供的 API 託管業務。Hugging Face

 

Hugging Face Hub 對所有機器學習模型開放,並得到 Transformers 、 Flair、Asteroid、ESPnet、Pyannote 等自然語言處理庫的支援,其中,最核心的自然語言處理庫是 Transformers 庫。

Transformers 庫支持 PyTorch、TensorFlow 和 JAX 之間的框架互通性,這確保了在模型生命週期的每個階段使用不同框架的靈活性。而且,透過 Inference API(推理 API),使用者可以直接使用 Hugging Face 開發的模型與資料集,進行推理、遷移學習,這讓Transformers 框架在性能與易用性上達到業界領先水準,徹底改變了深度學習在 NLP 領域的發展模式。 

Hugging Face Hub 堪稱是 AI 界的「Github」。Hugging Face

此外,該平臺還提供了一些實用工具,如模型版本控制、測試整合、共用和協作等,可以幫助開發人員更好地管理和共用模型和資料集。

因此,在 Hugging Face Hub,任何開發者或者工程團隊都可以透過介面,使用數千個模型的推理 API,輕鬆下載和訓練最先進的預訓練模型,完成不同模式的常見任務,例如自然語言處理、電腦視覺、音訊、多模態等,在幾分鐘內構建自己的機器學習驅動的應用程式,省去了從頭開始訓練模型,所需的大量時間和資源。

在此基礎上,他們還可以在自己的帳號下創建自己的倉庫,用於儲存和分享已經訓練好的模型、資料集和腳本,同時與強大的社群分享交流,輕鬆協作完成 ML 工作流程。

簡而言之,Hugging Face Hub 為研究者提供了一個平臺,去展示那些他們想要分享的模型,測試他人的模型,以此來深入研究這些模型的內部架構,共同促進 ML 的發展。而此前,AI 對前端開發者來說似乎遙不可及,畢竟到目前為止,只有少數程式碼產生的 AI 系統向公眾免費開放。

也正因如此,Hugging Face 決定在社群提供開源模型和 API 來改變這種狀況,主動承擔起 AI 科研走向應用的這個過程中複雜、細碎的工作,使得任何 AI 從業者都可以便捷地使用這些研究模型和資源。用 Hugging Face 自己的話來講,他們所做的事情,就是要架起 AI 科研和應用之間的橋樑。

除了提供便利,Hugging Face 還積極採取措施強化 Hub 的安全性,確保使用者的程式碼、模型和資料是安全的,讓使用者放心使用。

例如,在模型庫配備模型卡,以告知使用者每個模型的限制和偏見,進而促進這些模型被負責任地使用和開發;在資料集設置存取控制功能,允許組織和個人可以出於許可和隱私考慮,創建私人資料集,並且可以自行處理其他使用者的存取請求。

還值得一提的是,為了進一步使自然語言處理技術「民主化」,Hugging face Hub 上還開設了 NLP 課程——Hugging Face course。

該課程將使用 Hugging Face 生態系統中的資料庫(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),講解自然語言處理 (NLP) 的有關知識。它是完全免費的,甚至沒有廣告。 

Hugging Face 將自然語言處理課程直接免費上傳到影片網站

簡而言之,Hugging Face Hub 就像是機器學習領域的 GitHub。一個由社群開發者驅動的平臺,提供大量資源,讓開發人員可以在機器學習(ML)模型、資料集和 ML 應用程式上,不斷探索、創新和互相協作,透過分享知識和資源以加速和推進 AI 發展。 

「開源」帶動「商業」 

那麼一家提供「平臺社群」的「開源」公司,要如何獲利呢?

首先,「開源」就是一個正確的決定。

Hugging Face 憑藉開源專案 Transformers,積累了巨大的影響力,聚集了廣大開發者構建了龐大的社群 Hugging Face Hub,也贏得了客戶與投資者的信任,這使得它的商業化轉型水到渠成。

對此,紅杉資本合夥人 Pat Grady 也表示,「他們優先考慮的是應用,而不是變現,我認為這是正確的做法。他們看到了 Transformer 模型在 NLP 之外的應用方式,看到了成為 GitHub 的機會,這不僅是面向 NLP,而且會延伸到機器學習的每個領域。」

而且,縱觀過去十年,市場上初創公司的創業歷程,會發現開源模式的商業可行性得到過有力的印證。像 MongoDB、Elastic、Confluent 等,都是收入增長最快的開源公司,它們都實現了盈收,並且還在市場中存活了下來。

Hugging Face 的創始人之一,Clément 也因此堅信,「初創公司可以透過某種方式為開放的社群賦能,此種方法產生的價值,比透過搭建一個專有工具,產生的價值高出上千倍。」

甚至公開表示,「考慮到開源機器學習的價值和它的主流地位,其使用量就是遞延收入。機器學習會成為技術開發的預設方式,而且 Hugging Face 會成為這方面的頭號平臺,並創造出數十億美元的收入。」

因此,Hugging Face 選擇了「開源帶動商業」,這一商業化發展路徑,並在 2021 年開始提供付費功能。 

Hugging Face 的收費專案。Hugging Face

 

目前,Hugging Face 的盈利業務主要有三類:

  • 付費制會員:提供更加優質的服務和社群體驗,來獲得收益;
  • 數據託管:根據不同參數需求,提供不同的按小時收費託管服務;
  • AI 解決方案服務:目前的主打產品,圍繞 NLP、Vision 等方向為客戶提供定制化解決方案,以獲得技術服務費用。

值得一提的是,從 2020 年開始,Hugging Face 就開始做面向企業的定制自然語言模型,並推出了包括 AutoTrain、Inference API & Infinity、Private Hub、Expert Support 等,針對不同開發者類型的個性化產品。

目前,1000 多家公司已經成為了 Hugging Face 的付費客戶,主要是大型企業,包括英特爾、高通、輝瑞、彭博社和 eBay。

2021 年,Hugging Face 已經實現收入 1 千萬美元,從資料上來看,Hugging Face 這套的「開源帶動商業」的策略是成功的。

這也印證了 Hugging Face 的 CEO,Clément 所說的,「公司不需要從創造的價值中獲取 100% 的紅利,只需將其中 1% 的價值變現,但即便只是 1%,也足夠讓你成為一家高市值的公司。」

簡而言之,Hugging Face 憑藉開源社群積累影響力,而後逐步向 SaaS 產品和企業服務拓展。這種漸進式的轉型,讓 Hugging Face 在開源和商業化之間,取得了良好的平衡,也是其能取得成功的重要原因。這種發展策略也讓 Hugging Face 成為了 AI 界獨樹一幟的存在,並為其他 AI 初創公司樹立榜樣。

但是,開源生態也有它自己的軟肋,因為商業化的發展很可能會傷害到自然生長的社群環境。對此,Hugging Face 的做法是加強對技術的管控,維護自己的開源生態;同時,向科研領域深挖。

「機器學習技術仍然還處於早期發展階段,開源社群的潛力是巨大的。在未來 5 到 10 年,我們一定還會看到更多開源機器學習公司的崛起。」

Hugging Face 的 CEO Clément 說道。

geekpark
作者

極客公園(www.geekpark.net)成立於2010年,是中國創新者的大本營。透過對前沿科技的觀察報告,在內容媒體、會展公關、創業服務三大業務協同發展下連結資源,讓優秀的科技新創更快速的成長。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則