奧推網

選單
科技

百萬量級的多模態對話資料集來了,153萬張圖片4000多主題

羿閣 發自 凹非寺

量子位 | 公眾號 QbitAI

百萬量級

的多模態對話資料集來了!

MMDialog,這個由

北大&微軟

最新發布的英文資料集,包含了108萬個來源於真實世界的高質量對話。

其中包括非重複圖片153萬張,涉及

4184個主題

,還支援多種表情符號。

就像人在網上聊天時除了文字,還會發表情包、圖片一樣,多模態資料集正是旨在促進AI像人類一樣交談。

舉個例子,下圖是MMDialog收錄的一段人類對話,可以看到,雙方正在用文字、圖片和表情符號談論風景和野生動物。

目前,該資料集

已對學術研究領域開源

,可訪問文末連結獲取使用許可權~

MMDialog優勢在哪?

雖然目前開源的英文大規模圖文資料集較為豐富,如Visual Dialog、Image-Chat、OpenViDial、PhotoChat等,但它們或多或少都存在一定的侷限性。

比如Visual Dialog僅為針對特定圖片內容的提問與解答,場景與任務的定義比較單一;

Image-Chat是從給定影象的對話中派生出來的,這種會話中討論的主題通常只由給定影象觸發和支撐,回覆的內容也只有文字資訊,這與人類日常對話的發散性並不完全一致;

PhotoChat則是由眾包標註,儘管已比較接近於現實生活中的多模態對話,但仍然受到資料規模較小的限制。

以下圖為例,與PhotoChat相比,MMDialog擁有88倍的對話數量,47倍的主題豐富度,以及140倍的圖片數量。

而且,每段對話平均包含2。59張影象,且可以位於對話過程的任何位置,更符合人類的交流習慣。

其次,MMDialog的另一大優勢在於其包含了大量的話題,以推廣開放域。

為了保證資料質量,研究人員選擇在某英文線上社交平臺提取帶有某種標籤的對話(例如“#travel”、“#friends”、“#golf”),因為標籤往往概括了文字話語和視覺媒體的主要主題。

具體來說,他們人工篩選出4184個流行的標籤,且保證每個標籤至少收集1000個對話,這樣MMDialog資料集不僅滿足開放域屬性,還可以確保較大的規模。

兩種基線模型

為了用MMDialog資料集建立更真實的對話系統,本文還提出並規範了兩個基於

檢索

生成

場景的響應式生成任務。

此外,研究人員還為上述任務建立了兩個基線:生成式基線模型、檢索式基線模型,並報告了其實驗效能。

生成式基線模型

如下圖所示,研究人員復現並改進了多模態回覆生成的SOTA模型-Divter ,它包括兩個主要部分:一個純文字對話回覆生成器G,以及一個文字描述-影象翻譯器F。

具體來說,在輸入端,G將對話歷史U做為輸入,然後生成一個文字序列,該序列可能包括:文本回復、圖片的文字描述,或同時包括兩者。

然後,圖片翻譯器F會將圖片的文字描述翻譯為圖片回覆 ,並將所有的文本回復與圖片回覆依次組合起來做為最後的多模態回覆。

值得注意的是,在G的輸入端,我們還需要一個影象-文字描述翻譯模型 ,來將所有對話歷史中的影象轉化為對應的文字描述。

檢索式基線模型

下圖展示的是多模態檢索模型DE++,研究人員復現並改進了PhotoChat的圖片分享演算法,並將其擴充套件為同時具備判斷模態意圖與檢索文字/影象的能力。

簡單來說,該模型包括一個回覆模態意圖預測模組和一個回覆排序模組,它們具有相似的模型結構,並利用CLIP分別編碼對話歷史U以及回覆候選集C中的文字和影象。

在模態意圖預測模組做出下一個元素的模態預測後,排序模組會從C中選擇與其相關性最高的作為多模態回覆的組成部分,直到模態意圖預測模組判定已被完整檢索回為止。

研究團隊

本篇論文的研究團隊來自北大和微軟。

其中一作馮家展,是北京大學智慧學院的博士生,在MSRA實習期間完成本次研究。

論文和GitHub連結附在文末,如果你是碩士生/博士生/博士後/教職員工/研究型員工等,可以點選申請訪問許可權~

GitHub連結:

https://github。com/victorsungo/MMDialog

論文連結:

https://arxiv。org/abs/2211。05719

參考連結:

https://mp。weixin。qq。com/s/SArX84T1CDW6p2jWGxPc8A

— 完 —

量子位 QbitAI · 頭條號簽約