全球首個完全開源的大語言模型Dolly,性能堪比 GPT3.5!

全球首個完全開源的大語言模型Dolly,性能堪比 GPT3.5!

ADVERTISEMENT

大數據熱潮催生了許多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。現在我們進入了生成式人工智慧時代,那麼會不會有新的「人工智慧和大數據」結合方式? 

最近,大數據公司Databricks就在生成式人工智慧領域採取了行動。兩周前,該公司發表了一個名為 Dolly 的開源大型語言模型,旨在應對市場對於生成式 AI 及相關應用的旺盛需求,我們可以稱之為 Dolly 1.0。

Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM

像 ChatGPT 和 Bard 這樣的生成式 AI,它們使用的資料通常來自於在成千上萬不同網站,使用的資料量十分驚人,而且想要使用這些資料訓練 AI 還需要數以千計的強大 GPU 在背後提供支援。Databricks 希望透過開源 Dolly 1.0 及其訓練資料,讓任何人都能開發出一個真正像人類的 AI,而無需投資數百萬美元,這讓這類 AI 不再是只有大型科技公司才能負擔得起的東西,數以百萬計的小公司也將能夠從中受益。 

Databricks 首席執行長 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的資料和非常短的時間就能完成訓練,「只需 30 美元、一台伺服器和三個小時,我們就能教 Dolly 開始進行人類等級的互動。」 

4 月 12 日,Databricks 再次發表了該大語言模型(LLM)的開源反覆運算版本,並命名為 Dolly 2.0。Databricks 表示,Dolly 2.0 是業內第一個開源、遵循指令的 LLM,它在透明且免費提供的資料集上進行了微調,該資料集也是開源的,可用於商業目的。這意味著 Dolly 2.0 可用於構建商業應用程式,無需支付 API 存取費用或與協力廠商共用資料。  

Dolly 2.0 的誕生 

Dolly 1.0 基於 EleutherAI 在 2021 年開源的自然語言處理模型 GPT-J。GPT-J 是一個基於 GPT-3,由 60 億個參數組成的自然語言處理 AI 模型。但該模型使用了來自 StanfordAlpaca 專案的 5.2 萬個問答資料集,是根據 OpenAI 的 ChatGPT 的輸出進行訓練的,因為 OpenAI 的使用條款限制,Dolly 1.0 並不能用於商業用途。 

Databricks 在官方部落格中指出,「用於訓練 Dolly 1.0 的資料集中,包含來自 ChatGPT 的輸出。史丹佛團隊明確提到,OpenAI 的服務條款試圖阻止任何人創建能夠與其競爭的 AI 模型。」 

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基礎之上,為了規避這個問題並建立起可供商用的模型,Databricks 使用基於 EleutherAI 的 Pythia 模型家族中的 120 億參數語言模型,成功構建起了 Dolly 2.0。 

該公司表示,他們專門在 5000 名 Databricks 員工之內開展了群眾外包,透過高品質的人工生成指令建立起訓練資料集,借此完成了模型訓練和微調。該公司將這套高品質的人工生成回應/揭示資料集稱為 databricks-dolly-15k,其使用 Creative Commons Attribution-ShareAlike 3.0 Unported License 許可。 

「任何人均可出於任何目的使用、修改或擴展這套資料集,包括商業應用程式。」Databricks 還強調,該資料集可通過 GitHub 頁面(https://github.com/databrickslabs/dolly/tree/master/data)直接下載。

 

模型權重則可通過 Databricks Hugging Face 頁面(https://huggingface.co/databricks)處下載獲取。 

Dolly 2.0 想成為大小公司的福音 

Databricks 之所以發表基於開來源資料的大語言模型,主要是考慮到企業客戶對控制模型並引入針對性場景/特定用例的需求。這也與行業常見的商業閉環訓練模型(例如 ChatGPT)形成了鮮明對比。 

市場調查研究公司 Omdia 首席分析師 Bradley Shimmin 表示,「Dolly 2.0 這類模型大多是開放的,不需要在大規模 GPU 集群上進行長達數月的訓練,因此為那些希望構建內部生成式 AI 方案的企業打開了新世界的大門。」 

Shimmin 指出,「這些小型(即訓練參數的規模較小)模型使用大量提示/回應對作為訓練資料,因此特別適合希望控制整個解決方案、支持針對性用例的企業客戶。例如,他們可以利用現有問答配對建立的説明台資料庫訓練自己的 AI 模型。」 

根據諮詢公司 Amalgam Insights 首席分析師 Hyoun Park 的說法,開源大語言模型的另一大優勢,在於 Dolly 2.0 這類成果能夠讓企業更好地追蹤資料治理和駐留,並與所支援的用例保持良好的關聯性。 

Park 還專門拿 OpenAI 的名稱打趣,說「因為 OpenAI 的 ChatGPT 等其他模型在使用時要依賴於 API。對某些企業而言,這種依賴性可能引發關於 API 的合規性、治理或資料安全問題。」 

這也相當於,Dolly 2.0 和其他基於開源的大語言模型將在受嚴格監管的行業中成為各企業的福音。這是個良好的開端,讓企業意識到他們也可以創建並擁有自己的模型,且無需支付 API 訪問費或與大語言模型提供商共用資料。這些在受到嚴格監管的行業中都可能產生巨大的問題。 

開源與閉源大語言模型間的區別 

與閉源大語言模型相比,基於開源的模型所使用的訓練資料對公眾開放,因此可根據業務進行微調和定制以滿足企業需求。相比之下,ChatGPT 等閉源模型則根據其開發者 OpenAI 所掌握的訓練進行訓練,模型可透過 API 付費存取,且禁止直接用於商業用途。 

Chandrasekaran 認為,「「開放式大語言模型」可以有多種理解方式。最明顯也最重要的一點,就是對這些模型的原始程式碼和部署靈活性做出調整。除此之外,開放的範圍還可以涵蓋模型權重、訓練資料集以及開放/協作方式層面的決策。」 

IDC 的 Schubmehl 表示,Dolly 2.0 就遵循基於開源的模型這一理念。「Dolly 2.0 是一套大語言模型,模型本體、訓練程式碼、資料集和模型權重都可作為開源資源從 Databricks 處獲取,以供企業根據業務需求創建自己的定制化大語言模型。」Schubmehl 同時提到,這種方法與其他大語言模型形成了鮮明對比,後者往往並不開放模型構建中的各類組成要素。 

分析人士還提到,閉源與開源大語言模型間的另一個區別,主要體現在訓練的參數量上。其中閉源大語言模型的參數規模往往更大。以 ChatGPT4 為例,其訓練中使用到 100 兆個參數;相比之下,Dolly 2.0 的參數量只有區區 120 億個。 

Dolly 2.0 如何融入 Databricks 的生成式 AI 戰略 

Constellation Research 的 Thurai 表示,Databricks 此次推出 Dolly 2.0 可以算是其奪取生成式 AI 市場占有率的一項重要戰略。 

「從本質上講,眾多大語言模型和基礎模型業務都被掌握在超大規模企業手中。每家企業都有自己的變體——微軟有 ChatGPT、Googe有 Bard,AWS 則透過 Huggingface 合作夥伴關係提供基礎設施、流程、工具及模型共用和目錄服務。Databricks 當然不能坐以待斃,必須在熱火朝天的大語言模型市場上分一杯羹。」 

其他分析師則認為,Dolly 的發表符合 Databricks 公司向市場投放開源產品的戰略。 

IDC 的 Schubmehl 表示,「Databricks 的專長,就是透過各種開源 AI 工具和服務説明客戶充分利用自己的資料和運營體系。Dolly 是另一個絕佳安全,能夠為組織提供基於最新 AI 技術的選項,也就是大語言模型。」但分析師們也承認,Databricks 的 Dolly 2.0 恐怕無法立刻對 ChatGPT 或 Bard 等競爭對手產生影響。 

Omdia 公司的 Shimmin 認為,「Dolly 乃至其他開源生成式 AI 大語言模型的出現,將徹底顛覆 Bard、ChatGPT 和 Galactica 等現有大語言模型的未來前景。但從中短期來說,這些成果在 Google Workplace、微軟 Office 等產品中的地位還將穩固地維持下去。」 

Amalgam Insights 的 Park 則給出了不同意見,認為 Dolly 最終會成為 ChatGPT 這類通用工具的功能伴侶。「人們會從通用工具中學習如何使用和提示生成式 AI,而 Dolly 這類模型則負責説明使用者處理更具體、更專業的特定工作用例。」 

另外,也有評論指出,Dolly-like LLM 的一個能力是可以用來編寫程式,特別是 SQL 程式碼。這可能會導致非 SQL 專家能夠在 Databricks lakehouse 上設置和運行查詢。

這可以從兩方面來理解:第一,SQL 開發人員可以使用它來提高工作效率,第二,你不需要那麼多 SQL 開發人員。Dolly 可以減少 Databricks 對 SQL 程式師的需求。將這種想法擴展到 Snowflake 和所有其他資料倉庫環境,SQL 技能在未來可能會變得不那麼有價值。 

資料來源:

InfoQ
作者

InfoQ 是一家全球性社群網站,基於實踐者驅動的社群模式建立。軟體正在改變世界。促進軟體開發及相關領域知識與創新的傳播是我們的使命。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則