奧推網

選單
科技

僅用480塊GPU就跑出萬億引數!達摩院釋出全球首個“低碳版”巨模型M6

AI科技評論報道

編輯 | 陳大鑫

身為一名「鋼鐵直男」,我想每天都穿新款的換著花樣來的卡通男士連衣裙

那不如讓 AI 模型來幫忙生成吧:

風格可鹽可甜,還可搞怪,不錯嘛,滿足了老夫一把少女心

這個 AI 模型還能幹啥?

大家都知道此前OpenAI的 DALL·E 模型也可以生成圖片,但是清晰度只有256×256,而這個 AI 模型則將圖片生成清晰度提升至1024×1024!

這個模型還可以生成高畫質服裝設計圖的示例,其設計和圖案均為AI創作:

那這麼厲害的 AI 模型是如何訓練出來的呢?

答案很簡單,僅僅使用480塊GPU!

即能訓練出規模達人類神經元10倍的萬億引數多模態大模型,且與英偉達、谷歌等海外公司實現萬億引數規模相比,能耗降低超八成、效率提升近11倍。

沒錯,這就是今日阿里巴巴達摩院釋出的“低碳版”巨模型

M6

,它在全球範圍內首次大幅降低了萬億引數超大模型訓練能耗,更加符合業界對低碳、高效訓練AI大模型的迫切需求。

大模型將成下一代人工智慧基礎設施,這在AI圈內已成為共識。與生物體神經元越多往往越聰明類似,引數規模越大的AI模型,往往擁有更高的智慧上限,訓練大模型或將讓人類在探索通用人工智慧上更進一步。然而,大模型算力成本也相當高昂,很大程度阻礙了學界、工業界對大模型潛力的深入研究。

針對這一難題,達摩院聯合阿里雲機器學習PAI平臺、EFLOPS計算叢集等團隊改進了MOE(Mixture-of-Experts)框架,創造性地透過專家並行策略,大大擴增了單個模型的承載容量。同時,透過加速線性代數、混合精度訓練、半精度通訊等最佳化技術,達摩院團隊大幅提升了萬億模型訓練速度,且在效果接近無損的前提下有效降低了所需計算資源。

具體而言,相比此前英偉達使用3072 A100 GPU實現萬億引數、谷歌使用2048 TPU實現1。6萬億引數大模型,此次達摩院僅使用480卡V100 32G GPU就實現了萬億模型M6,節省算力資源超80%,且訓練效率提升近11倍。

今年3月,M6千億模型釋出時,OpenAI前政策主管Jack Clark公開點評道:“這個模型的規模和設計都非常驚人。這看起來像是眾多中國的AI研究組織逐漸發展壯大的一種表現。”

此次,M6萬億模型又帶來哪些新東西?

1 M6萬億大模型有哪些亮點?

AI大模型更低碳高效:提升了超大規模預訓練模型的資源利用率與訓練效率,沉澱大模型高效訓練的能力。對比Nvidia(3072 A100 GPU/萬億)、Google(2048 TPU/1。6萬億),阿里此次僅使用480卡V100 32G GPU就實現了高效的萬億M6模型的訓練,能耗降低超過8成,且效率提升近11倍。

AI創造力再次升級:M6擁有超越傳統AI的認知和創造能力,擅長繪畫、寫作、問答,在電商、製造業、文學藝術等諸多領域擁有廣泛應用前景。OpenAI DALL·E生成圖片清晰度達256×256,M6將圖片生成清晰度提升至1024×1024。更大的模型帶來了更強的創造力和可直接工業化應用的前景。

AI大模型首次商用:M6成為國內首個實現商業化落地的多模態大模型。經過一段時間的試用,M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造,透過結合潮流趨勢進行快速設計、試穿效果模擬,有望大幅縮短快時尚新款服飾設計週期。M6還已應用於支付寶、淘寶等平臺,參與跨模態搜尋、文案撰寫、圖片設計等工作。

2 M6萬億模型有哪些關鍵技術突破?

從開始研發大模型起,阿里M6團隊便格外重視GreenAI,即提升超大規模預訓練模型的資源利用率與訓練效率,沉澱大模型高效訓練的能力。這樣更多人可用較少的成本訓練或者應用大模型。

針對大模型訓練資源消耗過高的難題,達摩院聯合阿里雲機器學習PAI平臺、EFLOPS計算叢集等團隊改進了MOE(Mixture-of-Experts)框架,創造性地透過專家並行策略,大大擴增了單個模型的承載容量。同時,透過加速線性代數、混合精度訓練、半精度通訊等最佳化技術,達摩院團隊大幅提升了萬億模型訓練速度,且在效果接近無損的前提下有效降低了所需計算資源。

他們首先更細緻地探索了MoE在預訓練模型中的各類超參對模型收斂速度和精度的影響,包括top-k的k值、capacity對load balance的影響、load balance本身對效果的影響。基於這一系列的觀察,他們提出了一種Expert Prototyping的方法,使用分組MoE的形式,讓不同組的MoE透過組合能在引數規模不變的情況下,增大模型的表達空間。

他們觀察到在不同規模的模型上,分組MoE都能取得比baseline更好的效果。相比於單組switch routing的序列實現方式,分組MoE可以達到更好的加速效果,並且我們發現他在更大規模的模型上優勢會變得更大,如下圖:

在機器方面,M6團隊最終採用的是在Hippo混布叢集搭建模型的方案,利用的是480個單機單卡的NVIDIA V100-32GB的機器,通訊為頻寬為100Gb RoCEv2的RDMA網路網路,在XDL上提交任務。

3 M6已有哪些商業化應用?

AI設計師與智慧新制造:經過試用期,M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造,透過結合潮流趨勢進行快速設計、試穿效果模擬,有望大幅縮短快時尚新款服飾設計週期。隨著實踐經驗的增長,M6設計的能力還將不斷進化。

結合阿里的電商背景,M6團隊希望透過M6大模型優異的文到圖生成能力,和電商領域產業鏈深度融合,挖掘潛在的應用價值。具體來說,他們已深入到從服飾設計&生成、線上展示&測款的完整鏈路,期望利用M6的高畫質影象生成能力,縮短服飾企業的存貨週轉率,幫助商家對潮流趨勢有更好的掌控力和更快速的反應力。

以下為M6參與新款服裝設計的流程圖:

工業級文案生成:除文生圖外,M6也已具備可在工業界直接落地的圖生文能力,能夠快速為商品等圖片提供描述文案。該能力目前已在淘寶、支付寶部分業務上試應用。

在引數規模不斷升級的過程中,達摩院團隊發現,M6的認知和表達能力也在不斷提升:它能夠觀察到圖片中更豐富的細節,並使用更精準的語言進行表達。

比如,在對下述風衣圖片的描述中,更大引數規模的M6相比基礎版,注意到了“經典翻領設計”“腰間繫帶裝飾”“兩側大口袋點綴”等細節,生成文案資訊量更大、措詞更精準。

跨模態搜尋:M6對圖片、文字的精準理解及匹配能力,已在支付寶、手機淘寶中初步試應用,有望幫助提升使用者跨模態搜尋的效果。

M6團隊觀察到,淘寶上有很多長尾詞,主要因為很多95後、00後用戶有非常特別的商品需求,這些需求帶來了很多長尾的搜尋詞。比如,有使用者可能想要一個表面凹凸的咖啡杯,也就是日式風格凹凸咖啡杯,因為商家一般不會把這樣的細節寫在商品名和描述中,單純基於文字的搜尋很難搜出對應商品。

多模態大模型為精準的跨模態搜尋帶來可能。目前M6已建立從文字到圖片的匹配能力,未來,或將建立從文字到影片內容的認知能力,為搜尋形態帶來變革。

4 M6團隊接下來的規劃?

達摩院資深演算法專家楊紅霞表示,“接下來,M6團隊將繼續把低碳AI做到極致,推進應用進一步落地,並探索對通用大模型的理論研究。”

M6團隊主要關注方向如下:

繼續將GreenAI做到極致,讓更多學者和企業能參與對下一代AI的研究、應用。

繼續推進大模型應用落地,讓下一代AI進入包括社會公益在內的更多領域。

最佳化通用模型下游任務訓練,讓大模型在更多工上擁有更好表現。

探索對通用大模型的理論研究,期望揭開“How it works”。

探索大模型訓練的軟硬體結合,啟發下一代人工智慧硬體設計。

今年以來,阿里在超大規模預訓練模型領域屢出成果。除釋出多模態巨模型M6外,阿里巴巴達摩院近期還發布了中文社群領先的語言大模型PLUG,實現了在AI大模型底層技術及應用上的深入佈局。

相關技術文章參見:

M6: A Chinese Multimodal Pretrainer, KDD 2021 (千億引數)https://arxiv。org/pdf/2103。00823。pdf

Exploring Sparse Expert Models and Beyond (萬億引數)https://arxiv。org/abs/2105。15082

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將“AI科技評論”設為星標賬號在看”。