HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

最強組合 HuggingFace+ChatGPT=「賈維斯」現在開放 demo 了。HuggingGPT 爆火之後也開放了 demo,急不可待的網友自己上手體驗了一番。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

前段時間大型語言模型協作系統 HuggingGPT 直接爆火。研究者提出了用 ChatGPT 作為控制器,連接 HuggingFace 社區中的各種 AI 模型,完成多模態複雜任務。

整個過程,只需要做的是:用自然語言將你的需求輸出。

NVIDIA科學家稱,這是我本週讀到的最有意思的論文。它的思想非常接近我之前說的「Everything App」,即萬物皆 App,被 AI 直接讀取資訊。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

上手體驗

現在,HuggingGPT 增加了 Gradio 展示。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

計畫地址:https://github.com/microsoft/JARVIS

有網友便上手體驗了一番,先來「識別圖上有幾個人」?

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

HuggingGPT 根據推理結果,得出圖片中有 2 個人正在街道上行走。

具體過程如下:

首先使用圖像到文字模型 nlpconnect / vit-gpt2-image-captioning 進行圖像描述,生成的文字「2 個女人在有火車的街道上行走」。

接著,使用了目標檢測模型 facebook / detrresnet 50 來檢測圖片中的人數。模型檢測出 7 個物體,2 個人。

再使用視覺問題回答模型 dandelin / vilt-b32-finetuned-vqa 得出結果。最後,系統提供了詳細的響應和用於解答問題的模型資訊。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。

HuggingGPT 呼叫了以下模型:

首先,使用了模型「dslim / bert-base-NER」對文字「l love you」進行情感分類,是「浪漫」。

然後,使用「ChatGPT」將文字翻譯成泰米爾語,即「Nan unnai kadalikiren」。

在推理結果中沒有生成的圖片、音訊或視訊檔案。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

轉錄 MP3 檔案時,HuggingGPT 卻失敗了。網友表示,「不確定這是否是我的輸入檔案的問題。」

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

再來看看圖像生成的能力。

輸入「一隻貓跳舞」圖像上新增文字「I LOVE YOU」作為疊加層。

HuggingGPT 首先使用了「runwayml / stable-diffusion-1-5」模型根據給定的文字生成「跳舞的貓」的圖片。

然後,使用同一個模型根據給定的文字生成了「I LOVE YOU」的圖片。

最後,將 2 個圖片合併在一起,輸出如下圖:

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

「賈維斯」走進現實

項目公開沒幾天,賈維斯已經在 GitHub 上收穫了 12.5k 星,以及 811 個 fork。

研究者指出解決大型語言模型(LLMs)當前的問題,可能是邁向 AGI 的第一步,也是關鍵的一步。

因為當前大型語言模型的技術仍然存在著一些缺陷,因此在建構 AGI 系統的道路上面臨著一些緊迫的挑戰。

為了處理複雜的人工智慧任務,LLMs 應該能夠與外部模型協調,以利用它們的能力。

因此,關鍵點在於如何選擇合適的中介軟體來橋接 LLMs 和 AI 模型。

在這篇研究論文中,研究者提出在 HuggingGPT 中語言是通用的介面。其工作流程主要分為四步:

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

論文地址:https://arxiv.org/pdf/2303.17580.pdf

首先是任務規劃,ChatGPT 解析使用者請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。

接著,進行模型選擇。LLM 根據 HuggingFace 中的模型描述將解析後的任務分配給專家模型。

然後執行任務。專家模型在推理端點上執行分配的任務,並將執行資訊和推理結果記錄到 LLM 中。

最後是響應生成。LLM 總結執行過程日誌和推理結果,並將摘要返回給使用者。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

假如給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與 example.jpg 中的男孩相同。然後請用你的聲音描述新圖片。

可以看到 HuggingGPT 是如何將它拆解為 6 個子任務,並分別選定模型執行得到最終結果的。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

通過將 AI 模型描述納入提示中,ChatGPT 可以被視為管理人工智慧模型的大腦。因此,這一方法可以讓 ChatGPT 能夠呼叫外部模型,來解決實際任務。

簡單來講,HuggingGPT 是一個協作系統,並非是大型語言模型。

它的作用就是連接 ChatGPT 和 HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。

所以,HuggingFace 社區中的每個 AI 模型,在 HuggingGPT 庫中都有相應的模型描述,並將其融合到提示中以建立與 ChatGPT 的連接。

隨後,HuggingGPT 將 ChatGPT 作為大腦來確定問題的答案。

到目前為止,HuggingGPT 已經圍繞 ChatGPT 在 HuggingFace 上內建了數百個模型,涵蓋了文字分類、目標檢測、語義分割、圖像生成、問答、文字到語音、文字到視訊等 24 個任務。

實驗結果證明,HuggingGPT 可以在各種形式的複雜任務上表現出良好的性能。

網友熱評

有網友稱,HuggingGPT 類似於微軟此前提出的 Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。

Visual ChatGPT 是直接基於 ChatGPT 建構,並向其注入了許多可視化模型(VFMs)。文中提出了 Prompt Manage。

在 PM 的幫助下,ChatGPT 可以利用這些 VFMs,並以迭代的方式接收其反饋,直到滿足使用者的要求或達到結束條件。

HuggingFace合體ChatGPT,HuggingGPT 開放Demo展示、引用各種AI模型來幫ChatGPT打工

還有網友認為,這個想法確實與 ChatGPT 外掛非常相似。以 LLM 為中心進行語義理解和任務規劃,可以無限提升 LLM 的能力邊界。通過將 LLM 與其他功能或領域專家相結合,我們可以建立更強大、更靈活的 AI 系統,能夠更好地適應各種任務和需求。

 

參考資料:

本文轉載自量子位

 

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則