教自動編碼器學會「自我糾正」,DeepMind提出語言模型“SUNDAE”

一直以來，

自迴歸語言模型

（Autoregressive model，AR）

在文字生成任務中表現都相當出色。

現在，DeepMind透過教自動編碼器學會

“自我糾正”

，提出了一個叫做

“聖代”（

SUNDAE）

的非自迴歸模型。

它不僅能在WMT’14英德互譯任務中取得非自迴歸模型中的SOTA，還表現出與自迴歸模型相當的效能。

更厲害的是，還能輕鬆做到自迴歸模型做不到的事兒——

文字補全

。

要知道，非自迴歸模型一直不被看好。

而這個“聖代”的文字補全功能，也為人類和機器共同編輯、創作文字提供了新的途徑。

非自迴歸語言模型“聖代”

“聖代”全名“逐步展開降噪自動編碼器”

（Step-unrolled Denoising Autoencoder，SUNDAE）

，作為一種新的文字生成模型，它不依賴於經典的自迴歸模型。

與降噪擴散技術

（denoising diffusion）

類似，“聖代”在訓練期間採用

展開降噪

（unrolled denoising）

，將一系列token重複應用，從隨機輸入開始，每次都對其進行改進，直至收斂。

這就是所謂的“自我糾正”過程。

下面用一張圖來說明一下降噪和展開降噪的區別。

第一行為原始文字，它被隨機“汙染”

（corrupt）

後產生新的文字

（第二行）

，其中綠色的token代表“未汙染”文字，紅色代表“汙染”文字。

這個中間文字再透過降噪

（從生成模型中取樣）

，生成底部的又一個“汙染”文字。

標準降噪自動編碼器只學習從中間文字到頂部文字的對映，逐步展開降噪自動編碼器

（“聖代”）

則會學習從底部到頂部的對映。

而在文字生成期間，網路遇到的大多數文字都並非像上圖中間那樣，而是底部那種，所以展開降噪是非常有用的。

此外，研究人員還提出了一個簡單的改進運算元，它能實現比降噪擴散技術收斂所需的

更少的迭代次數

，同時在自然語言資料集上定性地生成更好的樣本。

直白的說，“聖代”採用的方法讓文字合成的質量和速度都變得可控了。

在機器翻譯和文字生成任務上表現如何？

下面就來看看“聖代”的具體表現。

研究人員首先在

機器翻譯

基準上評估“聖代”。

使用BLEU分數作為衡量標準，將“聖代”在WMT’14德英互譯任務上的翻譯質量與自迴歸模型

（AR）

和非AR模型進行比較。

結果發現，在不使用序列級知識蒸餾等技術的情況下，“聖代”的效能幾乎與AR模型相當，並且打敗了所有非AR模型。

接著是對“聖代”在

文字生成

任務上的評估。

研究人員在大型高質量公開資料集 Colossal Clean Common Crawl

（C4）

上訓練“聖代”。

模型一共包含335M引數，24層，embedding size為1024 ， hidden size為4096 ，以及16 個attention head，使用bacth size為4096的Adam optimizer訓練了多達40萬步。

最終生成的文字如下，

未經cherry pick

：

這10句裡面，除了第4，都挺合理。

不過由於C4資料集來自網路，所以無論是訓練集還是生成的最終結果，換行符都挺多。

此外，由於“聖代”模型的非自迴歸性，研究人員也測試了它的

文字“修復”能力

。

要知道，

這對於只能從左到右按序生成的AR模型來說根本就辦不到

。

結果如下

（cherry-pick過）

：

C4資料集

GitHub上的Python程式組成的資料集

大家覺得這效果如何？語法和邏輯似乎都沒有問題。

更多資料和內容歡迎戳下方連結。

論文地址：

https：//arxiv。org/abs/2112。06749

— 完 —

量子位 QbitAI · 頭條號簽約

奧推網

教自動編碼器學會「自我糾正」,DeepMind提出語言模型“SUNDAE”

相關文章閱讀