僅用480塊GPU就跑出萬億引數！達摩院釋出全球首個“低碳版”巨模型M6

AI科技評論報道

編輯 | 陳大鑫

身為一名「鋼鐵直男」，我想每天都穿新款的換著花樣來的卡通男士連衣裙

那不如讓 AI 模型來幫忙生成吧：

風格可鹽可甜，還可搞怪，不錯嘛，滿足了老夫一把少女心

這個 AI 模型還能幹啥？

大家都知道此前OpenAI的 DALL·E 模型也可以生成圖片，但是清晰度只有256×256，而這個 AI 模型則將圖片生成清晰度提升至1024×1024！

這個模型還可以生成高畫質服裝設計圖的示例，其設計和圖案均為AI創作：

那這麼厲害的 AI 模型是如何訓練出來的呢？

答案很簡單，僅僅使用480塊GPU！

即能訓練出規模達人類神經元10倍的萬億引數多模態大模型，且與英偉達、谷歌等海外公司實現萬億引數規模相比，能耗降低超八成、效率提升近11倍。

沒錯，這就是今日阿里巴巴達摩院釋出的“低碳版”巨模型

，它在全球範圍內首次大幅降低了萬億引數超大模型訓練能耗，更加符合業界對低碳、高效訓練AI大模型的迫切需求。

大模型將成下一代人工智慧基礎設施，這在AI圈內已成為共識。與生物體神經元越多往往越聰明類似，引數規模越大的AI模型，往往擁有更高的智慧上限，訓練大模型或將讓人類在探索通用人工智慧上更進一步。然而，大模型算力成本也相當高昂，很大程度阻礙了學界、工業界對大模型潛力的深入研究。

針對這一難題，達摩院聯合阿里雲機器學習PAI平臺、EFLOPS計算叢集等團隊改進了MOE（Mixture-of-Experts）框架，創造性地透過專家並行策略，大大擴增了單個模型的承載容量。同時，透過加速線性代數、混合精度訓練、半精度通訊等最佳化技術，達摩院團隊大幅提升了萬億模型訓練速度，且在效果接近無損的前提下有效降低了所需計算資源。

具體而言，相比此前英偉達使用3072 A100 GPU實現萬億引數、谷歌使用2048 TPU實現1。6萬億引數大模型，此次達摩院僅使用480卡V100 32G GPU就實現了萬億模型M6，節省算力資源超80%，且訓練效率提升近11倍。

今年3月，M6千億模型釋出時，OpenAI前政策主管Jack Clark公開點評道：“這個模型的規模和設計都非常驚人。這看起來像是眾多中國的AI研究組織逐漸發展壯大的一種表現。”

此次，M6萬億模型又帶來哪些新東西？

1 M6萬億大模型有哪些亮點？

AI大模型更低碳高效：提升了超大規模預訓練模型的資源利用率與訓練效率，沉澱大模型高效訓練的能力。對比Nvidia（3072 A100 GPU/萬億）、Google（2048 TPU/1。6萬億），阿里此次僅使用480卡V100 32G GPU就實現了高效的萬億M6模型的訓練，能耗降低超過8成，且效率提升近11倍。

AI創造力再次升級：M6擁有超越傳統AI的認知和創造能力，擅長繪畫、寫作、問答，在電商、製造業、文學藝術等諸多領域擁有廣泛應用前景。OpenAI DALL·E生成圖片清晰度達256×256，M6將圖片生成清晰度提升至1024×1024。更大的模型帶來了更強的創造力和可直接工業化應用的前景。

AI大模型首次商用：M6成為國內首個實現商業化落地的多模態大模型。經過一段時間的試用，M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造，透過結合潮流趨勢進行快速設計、試穿效果模擬，有望大幅縮短快時尚新款服飾設計週期。M6還已應用於支付寶、淘寶等平臺，參與跨模態搜尋、文案撰寫、圖片設計等工作。

2 M6萬億模型有哪些關鍵技術突破？

從開始研發大模型起，阿里M6團隊便格外重視GreenAI，即提升超大規模預訓練模型的資源利用率與訓練效率，沉澱大模型高效訓練的能力。這樣更多人可用較少的成本訓練或者應用大模型。

針對大模型訓練資源消耗過高的難題，達摩院聯合阿里雲機器學習PAI平臺、EFLOPS計算叢集等團隊改進了MOE（Mixture-of-Experts）框架，創造性地透過專家並行策略，大大擴增了單個模型的承載容量。同時，透過加速線性代數、混合精度訓練、半精度通訊等最佳化技術，達摩院團隊大幅提升了萬億模型訓練速度，且在效果接近無損的前提下有效降低了所需計算資源。

他們首先更細緻地探索了MoE在預訓練模型中的各類超參對模型收斂速度和精度的影響，包括top-k的k值、capacity對load balance的影響、load balance本身對效果的影響。基於這一系列的觀察，他們提出了一種Expert Prototyping的方法，使用分組MoE的形式，讓不同組的MoE透過組合能在引數規模不變的情況下，增大模型的表達空間。

他們觀察到在不同規模的模型上，分組MoE都能取得比baseline更好的效果。相比於單組switch routing的序列實現方式，分組MoE可以達到更好的加速效果，並且我們發現他在更大規模的模型上優勢會變得更大，如下圖：

在機器方面，M6團隊最終採用的是在Hippo混布叢集搭建模型的方案，利用的是480個單機單卡的NVIDIA V100-32GB的機器，通訊為頻寬為100Gb RoCEv2的RDMA網路網路，在XDL上提交任務。

3 M6已有哪些商業化應用？

AI設計師與智慧新制造：經過試用期，M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造，透過結合潮流趨勢進行快速設計、試穿效果模擬，有望大幅縮短快時尚新款服飾設計週期。隨著實踐經驗的增長，M6設計的能力還將不斷進化。

結合阿里的電商背景，M6團隊希望透過M6大模型優異的文到圖生成能力，和電商領域產業鏈深度融合，挖掘潛在的應用價值。具體來說，他們已深入到從服飾設計&生成、線上展示&測款的完整鏈路，期望利用M6的高畫質影象生成能力，縮短服飾企業的存貨週轉率，幫助商家對潮流趨勢有更好的掌控力和更快速的反應力。

以下為M6參與新款服裝設計的流程圖：

工業級文案生成：除文生圖外，M6也已具備可在工業界直接落地的圖生文能力，能夠快速為商品等圖片提供描述文案。該能力目前已在淘寶、支付寶部分業務上試應用。

在引數規模不斷升級的過程中，達摩院團隊發現，M6的認知和表達能力也在不斷提升：它能夠觀察到圖片中更豐富的細節，並使用更精準的語言進行表達。

比如，在對下述風衣圖片的描述中，更大引數規模的M6相比基礎版，注意到了“經典翻領設計”“腰間繫帶裝飾”“兩側大口袋點綴”等細節，生成文案資訊量更大、措詞更精準。

跨模態搜尋：M6對圖片、文字的精準理解及匹配能力，已在支付寶、手機淘寶中初步試應用，有望幫助提升使用者跨模態搜尋的效果。

M6團隊觀察到，淘寶上有很多長尾詞，主要因為很多95後、00後用戶有非常特別的商品需求，這些需求帶來了很多長尾的搜尋詞。比如，有使用者可能想要一個表面凹凸的咖啡杯，也就是日式風格凹凸咖啡杯，因為商家一般不會把這樣的細節寫在商品名和描述中，單純基於文字的搜尋很難搜出對應商品。

多模態大模型為精準的跨模態搜尋帶來可能。目前M6已建立從文字到圖片的匹配能力，未來，或將建立從文字到影片內容的認知能力，為搜尋形態帶來變革。

4 M6團隊接下來的規劃？

達摩院資深演算法專家楊紅霞表示，“接下來，M6團隊將繼續把低碳AI做到極致，推進應用進一步落地，並探索對通用大模型的理論研究。”

M6團隊主要關注方向如下：

繼續將GreenAI做到極致，讓更多學者和企業能參與對下一代AI的研究、應用。

繼續推進大模型應用落地，讓下一代AI進入包括社會公益在內的更多領域。

最佳化通用模型下游任務訓練，讓大模型在更多工上擁有更好表現。

探索對通用大模型的理論研究，期望揭開“How it works”。

探索大模型訓練的軟硬體結合，啟發下一代人工智慧硬體設計。

今年以來，阿里在超大規模預訓練模型領域屢出成果。除釋出多模態巨模型M6外，阿里巴巴達摩院近期還發布了中文社群領先的語言大模型PLUG，實現了在AI大模型底層技術及應用上的深入佈局。

相關技術文章參見：

M6： A Chinese Multimodal Pretrainer， KDD 2021 （千億引數）https：//arxiv。org/pdf/2103。00823。pdf

Exploring Sparse Expert Models and Beyond （萬億引數）https：//arxiv。org/abs/2105。15082

由於微信公眾號試行亂序推送，您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道，請將“AI科技評論”設為星標賬號在看”。

奧推網

僅用480塊GPU就跑出萬億引數！達摩院釋出全球首個“低碳版”巨模型M6

相關文章閱讀