阿里雲發佈AI繪畫創作大模型「通義萬相」，助企業釋放創造力及生產力

阿里巴巴集團的數字技術與智能骨幹業務阿里雲今日於2023世界人工智能大會（WAIC）上發佈最新人工智慧（AI）繪畫創作大模型「通義萬相」。這一前沿生成式AI模型現已向中國大陸企業客戶開啟邀測。

阿里雲同時宣佈推出通用框架ModelScopeGPT，旨在協助用戶透過使用ModelScope平台上的多元AI模型完成各類複雜度高和專業性強的AI任務，適用領域包括語言、視覺和語音等。開源模型即服務（Model-as-a-Service）平台ModelScope 由阿里雲於去年推出，目前已有超過900個AI模型。

阿里雲智能首席技術官周靖人表示：「『通義萬相』代表著我們在前沿生成式AI模型發展歷程上的又一重要里程碑，我們正不斷探索重塑行業發展模範的技術，以協助企業和社群釋放更大創造力及生產力。」他續指：「『通義萬相』的發佈將進一步讓高質量AI生成圖像於不同行業廣泛使用，協助電子商務、遊戲、設計和廣告等眾多領域的企業開展創新的AI藝術創作和創意表達。」

▲ 文字指令：一個穿著美麗精緻的中式漢服的六歲女孩站在衣架前展示，中景特寫，85毫米鏡頭。（Prompt: A six-year-old girl's beautiful and exquisite Chinese-style Hanfu is displayed in front of a clothes rack, medium close-up, 85mm lens）

「通義萬相」具備強大圖像生成能力

生成式AI模型擅長處理多種任務，可根據中英文文字指令生成細節豐富、風格多樣的圖像，包括水彩畫、油畫、國畫、動畫、素描、扁平插畫和3D卡通。「通義萬相」可將圖片轉換成風格類似的新圖片，還可透過風格遷移將圖像風格化，即保留原始圖像的內容同時應用另一圖像的視覺風格，將任何圖像轉換為具有特定風格的新圖像。

該模型藉助阿里雲於知識重組、視覺AI和自然語言處理（NLP）方面的開創性技術，採用多語言資源以強化模型訓練。「通義萬相」擁有強大的語義理解能力，因此可生成更為精確及符合語境的圖像。

此外，透過優化基於訊號雜訊比的高解析度擴散過程，該模型可於確保構圖準確度及細節清晰度之間取得平衡，同時其於乾净背景上生成高對比度及具視覺衝擊力圖像的能力亦可顯著提升。

▲ 文字指令：以明豔的色彩將大自然疊加為一個無限循環符號。（Prompt: Beautiful nature superimposed into an infinite loop sign with bright colours.）

阿里雲使用其自研大模型Composer開發「通義萬相」，可更好地控制最終輸出圖像，如空間佈局和調色盤，同時確保圖像合成兼具品質和創意。

推出ModelScopeGPT以處理複雜AI任務

阿里雲同時推出的ModelScopeGPT旨在透過一套技術框架充分發揮平台上語言大模型的能力。ModelScopeGPT將使用語言大模型作為控制器(controller)，連接「魔搭」開源社區中大量特定領域的專業模型。ModelScopeGPT建於豐富的模型即服務生態系統之內，並依託阿里雲提供的多種強大AI能力。企業和開發者可免費使用ModelScopeGPT訪問和執行最貼合用戶需求的模型，以完成複雜度高的AI任務，例如開發多語言影片。

阿里雲於今年4月發佈其語言大模型「通義千問」，並計劃在不久後將語言大模型陸續嵌入阿里巴巴的各項業務中以提升用戶體驗。阿里雲的客戶企業和開發者將透過大模型以更低成本建構專屬AI功能。自該模型推出以來，已收到來自金融科技、電子、運輸、時尚和乳製品等眾多行業企業的超過30萬個內測申請。