豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
最新中文語言理解領域權威榜單
CLUE
,誕生了一項
新的紀錄
:
來自阿里達摩院的大模型,獲得了超越人類成績的
86.685高分
。
這是該榜單誕生近三年以來,首次有AI超過人類得分。
這也意味著AI理解中文的水平又達到了一個新的高度。
那麼,創下這一紀錄的
AliceMind
,是如何做到的?
4項任務超人類水平,同時實現總榜平均分首次超越
作為業界最權威的中文自然語言理解榜單之一,CLUE從文字分類、閱讀理解、自然語言推理等9項任務中全面考核AI模型的語言理解能力。
過去三年,該榜單吸引了眾多國內NLP團隊的參與,儘管榜首位置多次易主,但參評AI模型一直未能超越人類成績。
本次,這個來源於阿里通義大模型系列的AliceMind,一舉在4項任務中超過了人類水平,並實現總分的首次超越。
據介紹,AliceMind一共靠下面
兩個關鍵技術
獲得這一成績。
首先,基礎模型迭代升級
AliceMind的基礎模型在通用語言預訓練模型StructBERT1。0
(入選ICLR 2020)
之上,進行了迭代升級。
此前1。0的工作聚焦於透過在
句子級別和詞級別
引入兩個新的目標函式,相當於給機器內建一個“語法識別器”。
這使機器在面對語序錯亂或不符合語法習慣的詞句時,仍能準確理解並給出正確的表達和迴應,大大提高機器對詞語、句子以及語言整體的理解力。
本次,達摩院透過使用此前團隊用於PLUG/中文GPT-3等超大規模模型訓練所使用的海量高質量中文文字,以及近兩年訓練技術的經驗,進行了以下改進:
替換啟用函式,用GLU替換GeLU;
使用更大規模的字/詞混合的詞表,替換了原始的字級別詞表;
使用相對位置向量替代絕對位置向量;
選取5億規模的模型,在增加約60%模型引數和計算量的前提下,獲得性能顯著提升。
此外,阿里達摩院配合AliceMind在大規模預訓練領域訓練端和推理端的加速技術的積累,利用StrongHold
(SuperComputing 2022)
等技術實現了在16卡A100上用14天時間完成超過500B tokens的訓練。
其次,Finetune
預訓練模型是語義理解的重要基礎,但是如何將其應用於下游任務同樣也是一項重要的挑戰。
達摩院NLP團隊面對語義相似度、文字分類、閱讀理解等下游任務,從遷移學習、資料增強、特徵增強等方面進行了一系列的探索,來提升下游任務的效能表現。
以CLUE榜單中的WSC任務為例:
{
“target”: {
“span2_index”: 25, “span1_index”: 14,
“span1_text”: “小橋”, “span2_text”: “它”
},
“idx”: 14,
“label”: “true”,
“text”: “村裡現在最高壽的人,也不知這小橋是什麼年間建造的。它年年搖搖欲墜,但年年都存在著。”
}
輸入樣本構建方式:
村裡現在最高壽的人,也不知這小橋名詞>是什麼年間建造的。它代詞>年年搖搖欲墜,但年年都存在著。
在常規的分類方法中,一般使用[CLS]標籤的最後一層隱藏狀態作為輸入分類器的特徵,要求模型透過標記隱式地學習指代任務。
為了加強分類器的輸入特徵,阿里達摩院從編碼器最後一層隱藏狀態中提取出指代詞和名詞所對應的向量表示並進行mean pooling。
隨後將名詞和代詞的向量表示進行拼接,並用分類器進行0-1分類。在加入增強輸入特徵後,在dev集上,模型表現從87。82提升至93。42(+5。6)。
透過分析structbert的預訓練任務,我們也可以發現,這種特徵構建的方式,更符合structbert預訓練任務的形式,縮短了Pretrain階段和Fine-tune階段的gap,從而提高了模型表現。
△structbert預訓練任務
關於AliceMind
阿里達摩院歷經三年研發出阿里通義AliceMind。
該模型體系涵蓋預訓練模型、多語言預訓練模型、超大中文預訓練模型等,具備閱讀理解、機器翻譯、對話問答、文件處理等能力。
並先後登頂了GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO在內的自然語言處理領域的的六大權威榜單,斬獲36項冠軍。
AliceMind已於去年6月開源。
本次在CLUE benchmark上首超人類中所使用的backbone模型,已經在達摩院此前釋出的
ModelScope平臺
中開放。
開放地址:
https://modelscope。cn/models/damo/nlp_structbert2_fill-mask_chinese-large/summary
— 完 —
量子位 QbitAI · 頭條號簽約