奧推網

選單
科技

多模態大模型——通用人工智慧路徑的探索

7月9日,中國科學院自動化研究所所長徐波在2021世界人工智慧大會(WAIC2021)上就人工智慧的最新進展進行報告,釋出了自動化所研發的跨模態通用人工智慧平臺—“紫東太初”。

“紫東太初” 跨模態通用人工智慧平臺以多模態大模型為核心,基於全棧國產化基礎軟硬體平臺,可支撐全場景AI應用。

多模態預訓練模型被廣泛認為是從限定領域的弱人工智慧邁向通用人工智慧路徑的探索。自動化所 “紫東太初” 跨模態通用人工智慧平臺瞄準成為實現通用人工智慧的開天之斧,在智慧世界混沌初開之際開闢新局。

依託面向超大規模的高效分散式訓練框架,自動化所構建了具有業界領先效能的中文預訓練模型、語音預訓練模型、視覺預訓練模型,並開拓性地透過跨模態語義關聯實現了視覺-文字-語音三模態統一表示,構建了三模態預訓練大模型,賦予跨模態通用人工智慧平臺多種核心能力。

“紫東太初”兼具跨模態理解和生成能力。與單模態和圖文兩模態相比,其採用一個大模型就可以靈活支撐圖-文-音全場景AI應用,具有了在無監督情況下多工聯合學習、並快速遷移到不同領域資料的強大能力。引入語音模態後的多模態預訓練模型,可實現共性圖文音語義空間表徵和利用,並突破性地直接實現三模態的統一表示。特別地首次使 “以圖生音”和“以音生圖”成為現實,對更廣泛、更多樣的下游任務提供模型基礎支撐,達成AI在如影片配音、語音播報、標題摘要、海報創作等更多元場景的應用。

此外,自動化所研發團隊還提出了弱關聯三模態資料的語義統一表達,可同時支援三種或任兩種模態弱關聯資料進行預訓練,有效降低了多模態資料收集與清洗成本。

總結來說,此跨模態通用人工智慧平臺包括三大關鍵技術和六大核心能力。三大關鍵技術為多模態理解與生成多工統一建模、面向國產化軟硬體的高效訓練與部署、多模態預訓練模型架構設計與最佳化。六大核心能力則體現為多模態統一表示與語義關聯、跨模態內容轉化與生成、預訓練模型網路架構合計、標註受限自監督模型學習、模型適配與分散式訓練、模型輕量化與推理加速。

會上,徐波所長展示了自動化所打造的虛擬人“小初”,通用多模態大模型的人機對話演示,展示了不同模態間的互相轉換和生成例項,涵蓋影片描述、智慧問答、影象檢索、吟詩作賦、中文續寫、雙語翻譯、語音識別等多個功能。生動證明,透過圖文音三模態的關聯與協同可以有效的提升機器的理解和生成能力,讓AI接近人類想象力!

徐波表示,“大資料+大模型+多模態”將改變當前單一模型對應單一任務的人工智慧研發正規化,多模態大模型將成為不同領域的共性平臺技術,是邁向通用人工智慧路徑的探索,具有廣闊的應用前景。同時,全棧國產化通用人工智慧平臺的實踐將使人工智慧研發的規則發生重大變革並逐漸形成壁壘,對我國實現AI領域科技創新、佔領核心技術高地具有重要的戰略意義。

— 完 —