ADVERTISEMENT
由ChatGPT引發的人工智慧風潮還在猛烈地刮著。但從各個角度來看,目前這都是一個巨頭爭霸的戰場:更大的模型、更強的算力、更多的使用者、更雄厚的資金……這些都似乎成為了想要加入這場角逐的門票。與此同時,核心技術的研究也逐漸開放走向封閉。
而在這高牆正在築起的過程中,也有一些新銳的創業公司想要高舉旗幟來一場革命。其中,尤其引人注目的是一家名為Hugging Face開源創業公司。
目前,Hugging Face已經是全球最受歡迎的開源機器學習社群和平台,不僅創下了GitHub有史以來增長最快的AI項目記錄,估值也一路衝破了20億美元。近期一篇關於HuggingGPT的論文更是把Hugging Face推到了舞台中心,也讓更多人關注到了目前這股與眾不同的人工智慧發展力量。
文章目錄
HuggingGPT是什麼?
本月初,微軟亞洲研究院和浙江大學聯合發表了一項最新的名為HuggingGPT的研究,介紹了一個全新的協作系統,讓開發者能夠在ChatGPT的幫助下快速、精準地去選擇合適的人工智慧模型,從而完成包括文字、影片、語音等多模態在內的複雜任務。
該計畫目前已經在Github上開源,還有一個超拉風的名字叫JARVIS(沒錯,就是跟鋼鐵人的助手一個名字)。在這個研究中,主要涉及到了兩個主體,一個是眾所周知的ChatGPT,另一個則是AI社群Hugging Face。
那麼Hugging Face是做什麼的?
簡單來說,Hugging Face是一個針對人工智慧的開源社群平台,使用者可以在上邊發表和共享預訓練模型、資料集和展示檔案等。目前Hugging Face上已經共享了超過10萬個預訓練模型,1萬多個資料集,包括微軟、Google、Bloomberg、英特爾等各個行業超過1萬家機構都在使用Hugging Face的產品。
在HuggingGPT中,ChatGPT扮演了「操作大腦」的角色,能夠自動解析使用者提出的需求,接著在 Hugging Face 的AI模型池裡進行自動模型選擇、執行和報告,為開發者們開發更複雜的人工智慧程式提供了極大的便利。
雖然在模型上ChatGPT跟Hugging Face能夠牽手,但從本質上來說,Hugging Face跟OpenAI目前是在做兩個相反方向的事。其中最大的不同點在於,在開發者服務方面,OpenAI現在正在搭建人工智慧開發的圍牆,僅允許滿足條件的機構和個人進入,但Hugging Face則希望每個人都可以使用生成式 AI 模型,包括各類企業和所有普通開發者。
今年2月,OpenAI上線了一個名為Foundry的新開發者平台,允戶可以在這個平台上運行OpenAI最新的機器學習模型,但在產品的描述中,OpenAI明確表示Foundry是為運行較大工作負載的尖端客戶設計,而根據一份價格表顯示,即使是 GPT-3.5 的輕量級版本,三個月費用高達7.8萬美元,一年費用為 26.4萬美元。
就在Foundry發表後,Hugging face便立刻宣布了其與 AWS 的最新合作夥伴關係,並行出了「讓人工智慧走向開放」的呼籲。透過該合作,任何開發人員都將能夠使用 AWS 的託管服務並處理 Hugging Face 上可用的任何模型。
在現在巨頭林立的人工智慧戰場上,Hugging Face就像是一支強有力的民間力量。當巨頭們都在努力保持自己生成式 AI 的霸主地位的時候,Hugging Face 的目標則是尋找各種途徑來保持 AI 研究空間的開放。
而這樣特點也讓Hugging Face目前頗有一些「中立」的色彩。無論微軟、Google、亞馬遜、Meta這些大公司打得再激烈,但它們幾乎全都是Hugging Face的支持者。
那麼,Hugging Face究竟是如何發展起來的,它具體做著什麼樣的業務?
回顧歪打正著的Hugging Face創業歷史,造就AI界的「笑臉」
在普通人的眼中,人工智慧一向都屬於相對冷門的技術領域,無論是充斥著大量數字、模型的演算法,還是由各種機械零件組裝成的機器人,都不免讓人感到有些距離感。但作為專為人工智慧開發者服務的Hugging Face卻主打了一個反差萌,笑臉Emoji再加上一雙攤開的小手,logo甚至有點過份可愛。
之所以有這樣一個可愛的logo,是因為一開始Hugging Face做的產品其實是一款針對青少年群體的聊天機器人。
當時Hugging Face的想法是基於自然語言處理 (NLP) 的人工智慧技術,來為年輕人們開發一個帶有娛樂性、類似於電子寵物一樣的個性化聊天機器人,讓大家可以在無聊的時候跟它聊八卦、問它問題、讓它產生一些有趣的圖片之類的事情。
這種新穎的人機社群模式得到了一些關注。2017年3月9號,Hugging Face App在iOS App Store正式推出,並拿到了包括SV Angel、NBA球星杜蘭特在內的120萬美元的天使投資。此後一年多,Hugging Face都一直圍繞著自己的聊天機器人業務在做著自然語言理解的相關訓練並行布相關的產品,高峰時期每天處理的消息數量達到了1百萬條。在2018年5月,它又獲得了400萬美元的種子輪融資。
雖然發展的還算不錯,但由於當時的人工智慧的理解能力和聊天水準遠不及ChatGPT這樣智慧有趣,再加上並非必要的業務情境,Hugging Face的規模一直都難以擴大。
但為了開發這個聊天機器人,Hugging Face的團隊做了一個很重要的事,那就是建構了一個底層庫來容納各種機器學習模型和各種類型的資料集。包括幫助訓練聊天機器人檢測文字消息情緒、產生連貫的響應、理解不同對話主題等,並且在GitHub上始終以開放原始碼專案的形式持續發表該底層庫的一些內容。
就這樣不溫不火地發展了一段時間後,2018年底,Hugging Face迎來了一個重要的轉折。
當年11月,Google宣佈推出基於雙向 Transformer 的大規模預訓練語言模型BERT,瞬間成為了自然語言理解領域最受開發者關注的模型。但一開始,Google只發表了BERT的TensorFlow版本,Hugging Face就想為啥沒有Pytorch版本呢?於是Hugging Face創始人之一的Thomas Wolf就用幾天的時間完成並開源了PyTorch-BERT,但沒想到,就是這麼一個“無心插柳”的項目讓Hugging Face一炮而紅。
藉著BERT的東風,Hugging Face的Pytorch-pretrained-BERT發表3個多月後,快速達成了在Github上5000+ 星標的成就,到了7月份其Star數量已經超過了1萬,發展速度遠超其他同類開放原始碼專案,在Github的AI項目領域裡一飛衝天。
在這樣的發展勢頭下,Hugging Face的產品戰略開始發生了調整。他們將更多精力放到了開源模型的建設上,將 Pytorch-pretrained-BERT項目正式命名為Transformers,同時支援Pytorch和Tensorflow 2.0。
借助 Transformers庫,開發者可以快速使用BERT、GPT、XLNet、T5 、DistilBERT等NLP大型語言模型,並使用這些模型來完成文字分類、文字總結、文字生成、資訊抽取、自動QA等任務,節省大量時間和運算資源,此後Hugging Face在人工智慧開源領域的名氣也越來越大。
到了2019年12月,Hugging Face拿到了由Lux Capital 領投的A輪融資,融資額也比上一輪上了一個量級達到了1500萬美元。值得注意的是,從這一輪開始,Hugging Face的標籤開始不再是聊天機器人,而是把AI開源業務放在了首位。這張可愛的笑臉emoji也開始被廣大人工智慧開發者們所熟知。
Hugging Face:要當AI界的Github
在2019年底All in AI開源之後,Hugging Face開始著手建構一套完整的開源產品矩陣。用Hugging Face自己的話來講,他們所做的事情,就是要架起人工智慧科研和應用的橋樑(bridges the gap from research to production)。
過去這些年,人工智慧領域的科研和商業應用是相對獨立的兩個板塊,科研部門的任務就是對尖端技術進行研究,搞模型、發論文,應用部門的人則是要將最新技術用到產品中探索商業變現。如何將科研成果進行系統性的整合成為開源產品,讓開發者們能夠很快上手去應用轉化是長期困擾業界的一個問題。
Hugging Face之前歪打正著地摸到了這個痛點,接著開始認真向下挖掘。簡單來說,Hugging Face就是承擔了人工智慧科研走嚮應用這個過程中幾乎所有複雜、繁瑣、細碎的工作,然後方便任何人工智慧從業者都可以去便捷地使用這些研究模型和資源。
目前,除了頭號產品Transformers之外,Hugging Face還建立了Tokenizers、Datasets、Accelerate等庫,從模型到資料集、從託管平台到性能最佳化,以開源社群為載體,Hugging Face已建立起了完整的人工智慧開發生態,涵蓋了 NLP、電腦視覺、語音、時間序列、生物學、強化學習等各個領域。
值得注意的是,Hugging Face並不是因為ChatGPT帶火的。2022年5月,當市場的注意力都還停留在Web3、元宇宙之上時,Hugging Face拿到了有紅杉、Lux Capital參與的1億美元融資,讓其估值一舉突破了20億美元。
Hugging Face當前的目標是想成為人工智慧領域的Github。其創始團隊認為,只有將那些少數人掌握的技術推廣給更多人使用,才能真正最大程度地推進整個行業的進步。而從商業的角度來說,Hugging Face認為賦能整個AI社群所可能產生的價值可能比一個專有的工具高出千倍,而只要將其中的1%變現就能夠足以撐起一個高市值的公司,類似的例子包括MongoDB、Elastic等等。
除了蓬勃發展的開源社群,從2020年開始,Hugging Face也開始做面向企業的定製自然語言模型,其客戶涵蓋彭博社、高通、英特爾等各類大中小型公司,並推出了包括AutoTrain、Inference API & Infinity、Private Hub、Expert Support等針對不同開發者類型的產品。據報導顯示,從2021年開始Hugging Face就一直處於正現金流的狀態。
Hugging Face在當前的人工智慧領域中能夠以開源社群的模式異軍突起,有一些偶然也有必然。首先,過去這些年,人工智慧技術所取得的進步都是由全世界的科研和產業領域共同協作所推動的,它的技術基因裡其實就帶著開放,因此建立起一個平台來連結研究者和開發者順應了行業發展的歷史和趨勢。
此外,Hugging Face透過完成大量的基礎性工作,來幫助彌補在人工智慧領域裡長期存在的科學與生產之間的鴻溝,這是過去很多開源平台沒有關注和做到的。
在此前的一個採訪中Hugging Face的CEO Clément Delangue表示,機器學習技術仍然還處於早期發展階段,開源社群的能力將是巨大的。他認為,在未來5到10年,我們一定還會看到更多開源機器學習公司的崛起。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!