正規化重置後的自然語言處理，魔搭社群語言模型輕鬆上手

作者 | 黃非阿里達摩院語言技術實驗室研究員

“Pre-training + Fine-tune”正在重置 AI 領域的研究正規化，預訓練大模型已成為備受矚目的研究方向，它首先興起於自然語言處理，也徹底變革了這方面的研究和應用。預訓練新正規化先將非常普遍的“通識”知識抽取出來，培養一個基礎模型，然後以此進行微調，得到處理具體問題的專業模型，其效能和效率大多已勝過傳統的任務模型，使得AI應用門檻大幅降低。

達摩院是國內最早投入預訓練大模型的研究團隊之一。2021 年 1 月，達摩院推出多模態大模型 M6，模型引數從百億起步，後增至 10 萬億，成為全球最大的預訓練模型之一。同時，針對自然語言處理，達摩院推出了 2 萬億引數的語言大模型 PLUG，中文預訓練也逐漸朝“大模型”演進。在上述研究的基礎上，達摩院更是推出了“阿里通義大模型體系”，以多模態預訓練模型為底座，涵蓋文字、視覺和多模態任務。

這裡我著重介紹下阿里通義大模型體系中的 AliceMind，它以通用預訓練模型 StructBERT 為核心，包括一系列預訓練語言模型，取得了多個業界領先的技術成果，包括 2018 年 1 月在英文機器閱讀理解榜單 SQuAD 首次超越人類基準，2021 年 8 月在視覺問答榜單 VQA Leaderboard 上首次超越人類基準， 2022 年 11 月在中文語言理解榜單 CLUE 首次超越人類基準。

基於阿里通義 AliceMind，我們在各種自然語言的下游任務，包括理解生成、文字分類、對話問答、文件分析和機器翻譯等方面研發出了一整套的自然語言處理技術和框架，目前正在 AI 模型社群魔搭 ModelScope 上持續進行開源開放，希望能推動 NLP 領域的研究，幫助開發者輕鬆構建自己的語言模型和 AI 應用。

自然語言理解任務1。資訊增強的詞法分析任務

分詞、詞性標註、命名實體識別等詞法分析任務是 NLP 中基礎、且應用最廣泛的任務模組，應用場景包括搜尋 query 分析、商品資訊抽取、對話 NLU、文件結構化等。在預訓練的正規化之下，如何融入無監督、半監督、檢索等多型別知識是詞法分析任務在學術界和工業界的共同熱點。

分詞

模型名稱：BAStructBERT

體驗連結：https：//modelscope。cn/search？search=BAStructBERT

中文分詞演算法已經發展了 30 多年，從最初的基於詞典的匹配方法，到後來的基於字標註的統計學習方法，再到深度學習方法，而大規模預訓練語言模型的出現大幅度提升了中文分詞的效果。

魔搭開源的分詞模型在預訓練階段將邊界熵、互資訊等無監督統計資訊融入到預訓練任務中，從而提升預訓練語言模型對中文詞彙邊界的學習能力。該模型在分詞、詞性標註等中文序列標註任務取得了 SOTA 結果，具體論文發表於 EMNLP2022。

為了便利開發者使用，我們在魔搭上的分詞、詞性標註模型提供 Base 和 Lite 兩種規模的模型，還專門提供了基於電商資料訓練的電商行業分詞模型。未來，我們會持續豐富行業分詞、詞性標註模型，同時也會提供推理效率更高的基於淺層神經網路（LSTM、GCNN）的蒸餾模型。

命名實體識別（NER）

模型名稱：RaNER

體驗連結：https：//modelscope。cn/search？search=RaNER

資訊抽取能幫助我們從海量文字自動提取挖掘關鍵資訊，是數字化的重要支撐技術，其中，命名實體識別（NER）是資訊抽取中的重要子任務。

比如上面電商文字，模型需要合理地識別核心產品、品牌、場景、功能等關鍵資訊。而要實現高質量的識別結果，必須融入知識。我們經過兩年的技術探索，提出檢索增強技術體系 RaNER，在自然語言處理國際學術會議 ACL/EMNLP/NAACL/COLING 發表論文五篇，在 SemEval 2022 國際多語言競賽獲得十項第一，獲得唯一的最佳系統論文獎，同時也在 NLPCC 語音實體理解競賽獲得榜首成績。

在魔搭社群，我們不僅提供通用的實體識別模型，還有 40 多個具體的模型，橫跨 15 個不同的行業，多箇中/英/小語種，及包括 base/large/lstm 模型規格，方便使用者在不同行業、不同語種、同場景進行使用。

2。文字分類任務

作為業界最權威的中文自然語言理解榜單之一，CLUE 從文字分類、閱讀理解、自然語言推理等 9 項任務中全面考核AI模型的語言理解能力。過去三年，該榜單吸引了眾多國內頂尖 NLP 團隊的參與，儘管榜首位置多次易主，但參評 AI 模型一直未能超越人類成績。

2022 年 11 月 22 日，阿里通義 AliceMind 在 4 項任務中的表現超過人類水平，同時實現了總榜平均分的首次超越，意味著 AI 模型的中文語言理解水平達到了新的高度。

情感分類模型

模型名稱：StructBERT 情感分類

體驗連結：https：//modelscope。cn/models？name=情感分類

情感分類需要模型對帶有感情色彩的主觀性文字進行分析、推理，即分析文字所表達的態度，是傾向於正面還是反面。通常來說，情感分類的輸入是一段句子或一段話，模型需要返回該段話正向/負向的情感極性，在使用者評價，觀點抽取，意圖識別中往往起到重要作用。

我們在魔搭上開源了 5 個情感分類模型，包括了中英文通用版本和中文電商領域版本。以“啟動的時候很大聲音，然後就會聽到 1。2 秒的卡察的聲音，類似齒輪摩擦的聲音”為例，模型會返回情感的正負面以及其對應的機率。如下圖所示：

該模型使用 StructBERT 作為預訓練底座，收集了各領域的開源情感分類資料集（共10W+）進行 Fine-tune，並結合 R-drop、label-smoothing 等策略避免模型過擬合，因此能實現較好的效果。

零樣本分類

模型名稱：StructBERT 零樣本分類

體驗連結：https：//www。modelscope。cn/models/damo/nlp_structbert_zero-shot-classification_chinese-base/summary

從上圖兩個例項，我們可以發現 StructBERT 零樣本分類模型支援候選標籤任意定義，從而具備瞭解決各種任務的能力，比如例子1中的主題分類任務、例子 2 中的情感分析任務。因此，我們能在無標註資料或標註資料很少的情況進行快速啟動模型，或者為待標註資料進行預分類從而提高標註效率。

技術上，StructBERT 零樣本分類模型將待分類的文字和每個標籤依次拼接進行自然語言推理任務，之後整合每個標籤得到的結果，從而形成文字所屬的標籤。該模型對文字和標籤的資訊都進行充分的編碼和互動，並利用預訓練學習到的知識，可在不使用下游資料進行訓練的情況下，按照指定的標籤對文字進行分類。

3。文字語義表示

語義匹配

模型名稱：ROM

體驗連結：https：//modelscope。cn/models？name=CoROM&page=1

文字語義匹配模型在文字相似度、文字聚類、文字檢索排序等下游任務中發揮著重要作用，基於預訓練模型構建的召回、排序模型對比傳統的統計模型優勢明顯。下圖展示了搜尋場景中判斷查詢 query 和候選文件的相似度的典型樣例：

文字語義匹配檢索系統應用示例

達摩院自研的 ROM 模型提供文字表示、文字排序的中英文單塔、雙塔模型。區別於通用的BERT預訓練模型，ROM 模型在預訓練任務中透過引入結合詞權重的 Random Masking 方法和對比學習任務，提升了文字表示能力和對關鍵詞資訊的建模能力。依賴 ROM 系列模型構建的文字檢索系統在 2022 年 3 月份登頂 MS MARCO Passage Ranking LeaderBoard。

ROM預訓練語言模型

自然語言生成任務

隨著 OpenAI 提出 GPT-3 超大規模生成模型，AIGC 領域也進入高速發展期，從文字生成、到圖片生成甚至是影片生成。我們在魔搭社群也開源開放了多個生成模型。

1。 PALM 模型

https：//modelscope。cn/models？name=PALM&page=1

自動生成摘要

PALM 模型採用了與之前的生成模型不同的預訓練方式。在海量無標籤文字語料上結合了 Autoencoding 和 Autoregression 兩種方式，引入 Masked LM 目標來提升 encoder 的表徵能力，同時透過預測文字後半部分來提升 decoder 的生成能力。相關技術論文發表在 EMNLP 2020，論文發表時在 CNN/Daily Mail Gigaword 等資料集上實現了 SOTA。

在 PALM 基礎上，我們採用多階段多工漸進式從易到難的訓練正規化，提出了 PALM 2。0 中文預訓練生成模型，並將訓練好的下游場景模型和 finetune 訓練能力完全開放，適用於大部分的中文生成業務場景。

2。 PLUG 模型

https：//modelscope。cn/models/damo/nlp_plug_text-generation_27B/summary

該模型提出時是中文社群最大規模的純文字預訓練語言模型，集語言理解與生成能力於一身，在語言理解（NLU）任務上，以 80。179 分重新整理了當時 CLUE 分類榜單的新記錄排名第一；在語言生成（NLG）任務上，在多項業務資料上較 SOTA 平均提升 8% 以上。

模型採用 encoder-decoder 的雙向建模方式，在大規模的中文訓練資料（1T 以上）訓練，因此在傳統的 zero-shot 生成的表現上，無論是生成的多樣性，領域的廣泛程度，還是生成長文字的表現，較此前的模型均有明顯的優勢。

該模型的零樣本生成能力較為突出，下面是一些具體展示：

小說續寫

生活百科

零樣本學習

3。 mPLUG模型

https：//modelscope。cn/search？search=mplug

在純文字大模型 PLUG 的基礎上，我們又推出了多模態的統一大模型 mPLUG，2021 年在視覺問答榜單 VQA Challenge 取得第一，並首次超越人類基準，具體技術論文發表於 EMNLP2022。

mPLUG 核心解決了多模態融合時視覺特徵序列過長導致的低效性、資訊淹沒的問題，提出新的跨模態融合方法 skip-connected network。在僅用 1300 萬圖文資料預訓練，便在 VQA、Caption 等核心多模態任務上取得同等引數規模下的 SOTA，除此之外，還可用於下游的影片文字的理解和生成場景。

視覺問答（VQA）

影象描述（Image Captioning）

視覺定位（Visual Grounding）

圖文檢索（Image-text Retrieval）TRIEV

4。中文版 GPT-3

模型連結：https：//modelscope。cn/models/damo/nlp_gpt3_text-generation_13B/summary

使用入口：https：//modelscope。cn/studios/damo/ai_writer/summary

因為 GPT-3 主要支援英文，對於中文效果較差，訪問使用還需要申請，因此我們推出了中文 GPT-3，免費開放，可自由訪問，希望為中文社群帶來更好用的中文生成大模型。

我們創新性地結合無監督資料和有監督 prompt 資料，並考慮到使用者的不同 GPU 資源，訓練了不同版本規模的中文GPT-3，包括base/large/1。3B/2。7B/13B/30B，以及後續即將推出的 175B。目前模型具備多種生成能力，如程式碼生成、小說續寫、作文生成等。

程式碼生成

作文生成

SQL 生成

對話問答

1。 SPACE 對話模型

https：//modelscope。cn/models/damo/nlp_space_pretrained-dialog-model/summary

如何將人類先驗知識低成本融入到預訓練模型中一直是個難題，我們提出了一種基於半監督預訓練的新訓練方式，將對話領域的少量有標資料和海量無標資料一起進行預訓練，從而把標註資料中蘊含的知識注入到預訓練模型中去，打造了 SPACE 1/2/3 系列預訓練對話模型，在 11 個國際公開對話資料集上取得了最好結果。

在魔搭社群上，我們以 SPACE 模型為基座，開源了理解、生成 fine-tuning 和意圖分類、對話狀態追蹤和回覆生成推理 pipeline，覆蓋了對話系統各個核心模組，只需幾行程式碼，就能快速上手對話系統，復現論文裡的 SOTA 效果。

2。 SPACE-T表格問答模型

https：//modelscope。cn/models/damo/nlp_convai_text2sql_pretrain_cn/summary

現代企業花費大量精力構建了資料庫、資料中臺等基礎設施，支撐 CRM、ERP、OA 等系統，但是常規的企業智慧化方案中，仍需要花費大量資源，去重新構建圖譜、意圖、FAQ 等知識形態。如果能夠利用已有的二維關係型資料庫直接構建企業智慧化系統，就可以節省大量成本。

達摩院研發了 SPACE-T 表格問答模型，能夠智慧理解分析表格資訊，已經在阿里雲智慧客服等多個產品中輸出，服務了多領域的客戶。這次在魔搭社群上免費開源開放，能夠讓有需要的企業透過對接自己的資料庫，定製化構建自己的表格問答應用，可具備單/多屬性查詢能力、單/多條件篩選能力、最值/平均/計數等基礎統計能力等，如下圖所示：

技術上，該模型由億級表格資料預訓練構建，具備良好的開箱即用能力。模型在訓練和推理過程中都會將表格的 Schema 資訊作為輸入，使模型能夠理解表格資訊，實現了表格知識即插即用的效果。

機器翻譯

模型名稱：CSANMT 連續語義增強機器翻譯

體驗連結：https：//modelscope。cn/models？name=CSANMT&page=1&tasks=translation

達摩院長期致力於機器翻譯的研究，產生了一批高質量的模型。這次我們重點開源了CSANMT連續語義增強機器翻譯，這是我們最新研發的高質量神經機器翻譯（NMT）模型，獲得了AL 2022 傑出論文獎。

CSANMT 模型由編碼器（Encoder）、解碼器（Decoder）和語義編碼器（Semantic Encoder）三個單元構成。語義編碼器可以在連續分散式語義空間捕捉源語言與目標語言的相似性，從而更加充分、更加高效地利用雙語訓練資料，不僅可以顯著提升了翻譯質量，而且能夠有效改善了模型的泛化能力和魯棒性。

首批開源的 CSANMT 模型包括中英、英中、英法、法英、英西、西英等語向的模型，後續還將開源覆蓋歐洲、東亞、東南亞等區域主要語種的 CSANMT 翻譯模型。我們將對模型進行持續迭代最佳化，確保效能和體驗處於業內領先水平。

結語

自然語言處理代表著AI從感知智慧走向認知智慧，相關研究如火如荼，隨著預訓練新正規化的推動，底座模型越來越“通識”，下游模型場景越來越豐富，落地效果也更加完善，各種應用方興未艾。

魔搭社群不僅提供了達摩院自己研發的 100 多個 NLP 模型，也接入了業界一流科研機構的眾多優質模型，比如瀾舟科技的孟子系列輕量化預訓練語言模型，智譜 AI 的 mGLM 多語言模型等。。。歡迎大家基於這些優質模型，搭建出自己的創意應用，更希望自然語言處理迎來一個全新的時代。

奧推網

正規化重置後的自然語言處理，魔搭社群語言模型輕鬆上手

相關文章閱讀