達摩院ModelScope開放中文語言理解及AI繪圖等模型

從自動生成文案到近期網路流行的人工智慧 AI 繪圖， AI 在自然語言處理（NLP）及電腦視覺領域的應用越來越廣泛，而阿里巴巴達摩院的模型開源社群及創新平台 ModelScope 上，已經開放上述領域及語音、科學計算等模型庫及數據集，降低開發和使用人工智慧模型的門檻，讓大學和中小企業都能使用人工智慧作科研及商業用途。

其中在 NLP 領域，已經在 ModelScope 上開放的阿里巴巴通義大模型系列 AliceMind （下稱「阿里通義AliceMind」），在11月底便憑藉高精準度的語文理解能力，成為中文語言理解評測基準項目 CLUE 面世3年來首個超越人類基準的參評 AI 模型。

阿里通義AliceMind成為CLUE首個超越人類基準的AI模型

根據 CLUE 的排行榜於11月22日更新的成績，阿里通義AliceMind以86.685總分，成為排行榜面世近3年來首個超越人類基準線（86.678）的 AI 模型，反映 AI 中文語言理解水平達到新的高度。

目前阿里通義 AliceMind 的基礎模型，已經在達摩院的模型開源社群及創新平台 ModelScope 上開放。

CLUE 是中文 NLP 的權威評測平台，從文本分類、閱讀理解、自然語言推理等9項任務中，考核參評 AI 模型的語言理解能力。CLUE 總排行榜自2019年12月發佈至今近三年，一直吸引眾多中國頂尖 NLP 團隊的參與，儘管榜首位置多次易主，但參評 AI 模型一直未能超越人類基準成績。

為提升 AI 模型對詞語、句子以及語言整體的理解力，在預訓練階段，達摩院沿用超大規模模型訓練所使用的海量高品質中文文本，同時改善模型結構和訓練技術，例如使用開發函數GLU、混合詞的大詞表等，獲得更強的文本建模能力；又例如使用StrongHold訓練加速技術縮短產品生命週期、節省算力成本，進而獲得性能的顯著提升。在精調階段，面對文本分類、閱讀理解、自然語言推理等下游任務，達摩院採用遷移學習、數據增強、特徵增強等技術，進一步提升模型表現。

以 CLUE 榜單的 CHID 成語閱讀理解填空任務為例，該任務需要 AI 模型選出正確的成語進行填空。阿里通義 AliceMind 可透過海量文本數據的學習達到「博聞強識」的效果，在預訓練階段掌握選詞填空所依賴的語義理解能力，訓練成語數據的領域遷移。

在11月22日的評測結果中，阿里通義 AliceMind 在其中4項任務的表現超越人類的水平，並在總平均分首次超越人類基準線。

作為最早投入預訓練語言模型研究的團隊之一，達摩院研發阿里通義 AliceMind 體系，涵蓋預訓練模型、多語言預訓練模型、超大中文預訓練模型等，具備閱讀理解、機器翻譯、對話問答、文件處理等多種能力。目前相關技術已應用於醫療、電商、法律等領域，在跨境電商領域，達摩院的機器翻譯系統能提供214種語言的翻譯服務，每天翻譯上億文字。

延伸閱讀：從AI繪圖進化到寫真，AI煉丹師是如何一步一步打造出AI美少女夢工廠的？

達摩院開源以人為中心的視覺 AI 模型

電腦視覺是應用最廣泛的 AI 技術之一，從日常手機解鎖使用的人臉識別，再到熱門的產業前沿自動駕駛，視覺 AI 都大顯身手。

達摩院開放視覺智能負責人謝宣松表示：「視覺 AI 的潛能遠未得到充分發揮，窮盡我們這些研究者的力量，也只能覆蓋少數行業和場景，遠未能滿足全社會的需求。」ModelScope 已經全面開源達摩院研發的視覺 AI 模型，希望讓更多開發者來使用視覺 AI ，更期待 AI 能成為人類社會前進的動力之一。

視覺 AI 技術覆蓋從感知理解、畫質增強到編輯生成等各方面。以單人照片為例， AI 需要會先識別照片中人物有什麼肢體動作、能否將照片中物體去背出來等，然後進一步探索照片品質如何、畫質能否變得更好、照片中人物能否變得更漂亮，甚至變成卡通人物或虛擬人物等。

網路常見的人像卡通化正是 AI 編輯生成的例子之一，ModelScope 基於域校準圖片翻譯網路DCT-Net（Dom AI n-Calibrated Translation），採用「先全局特徵校準，再局部紋理轉換」的核心，利用百張小樣本風格數據，即可訓練得到輕量穩定的風格轉換器，實現高品質人像風格轉換效果。

拍攝不是因為環境、設備及人為操作等原因而導致圖片品質不佳，在畫質增強方面， ModelScope 已經開放NAFNet 去噪點模型，適用於很多應用的前置步驟，如智慧手機照片去噪點、照片去模糊等。該模型使用簡單的乘法操作替換開發函數，在不影響性能的情況下提升處理速度。

除了圖片去噪點去模糊，外界對圖片的細節紋理、色彩等品質問題會有更高的處理要求， ModelScope 也開放專門的人像增強模型，對偵測到的圖片人像修復和增強，並對圖片中的非人像區域採用超分辨率技術，最終修復成完整圖片。此模型能夠處理大多數複雜的真實降質，修復嚴重損傷的人像圖片。

事實上，達摩院在 ModelScope 面世前已經率先開放 API 形態的視覺 AI 服務，透過公有雲平台對 AI 開發者透過「視覺智慧開放平台」提供一站式視覺線上服務，開放超200個 API 並涵蓋基礎視覺、行業視覺等方面。

謝宣松認為，從開放視覺平台到 ModelScope 社群，意味著達摩院視覺 AI 的開放邁出更大一步，藉以滿足千行百業對視覺 AI 的需求，促進視覺 AI 的生態發展。

延伸閱讀：AI繪圖的10大Q&A：用什麼「繪圖關鍵字」？有哪些繪圖網站?

延伸閱讀：AI繪圖「Stable Diffusion」快速上手，Midjourney的神級勁敵、開箱即用