奧推網

選單
科技

2022語言與智慧技術競賽啟動 聯手千言"首發"重磅中文資料集

近年來,產學研各界在自然語言處理(NLP)領域持續深耕,促進著人工智慧技術不斷向前發展。技術的應用不僅改變著人類的生活方式,也為產業升級提供了更多可能。

3月30日,聚焦NLP領域的2022語言與智慧技術競賽正式啟動報名。本次競賽將聯手“千言”資料集開源專案,覆蓋跨模態、知識驅動、可信學習等人工智慧的前沿課題,釋出全新四大任務,併發布中文領域首個搜尋知識對話資料集、首個面向實際應用場景的中文大規模段落檢索資料集等多個重磅資料集。參賽選手將有機會結合技術前沿課題和實際應用場景,進行技術突破和評測挑戰,獲勝隊伍將分享總額超過20萬元的獎金。

NLP圈頂級賽事 四大任務再升級

本競賽由中國中文資訊學會(CIPS)和中國計算機學會(CCF)聯合主辦,百度公司、中國中文資訊學會評測工作委員會和中國計算機學會自然語言處理專委會承辦,已連續舉辦4屆,成為全球最熱門的中文NLP賽事之一。

在2021年的上一屆評測中,參賽隊伍報名超過3500支,企業隊伍佔比約20%,覆蓋了網際網路、通訊、金融、能源、航空航天等多個領域,其中不乏騰訊、華為、阿里巴巴、位元組跳動、國家電網、中國移動等知名企業;高校隊伍佔比約50%,覆蓋了清華大學、北京大學、復旦大學、中國人民大學、慕尼黑工業大學、早稻田大學、愛丁堡大學等300多所國內外高校。評測累計收到有效提交結果1萬多次,競爭非常激烈。

據瞭解,2022年競賽對賽題設定進一步升級,推出四大全新任務:

段落檢索——讓機器從大規模語料庫中找出相關段落,評估機器的語義檢索及排序的能力,是自然語言處理和資訊檢索領域的重要任務,也是搜尋引擎核心能力之一,每日幫助使用者從超過百億的網頁文件中快速找到結果。本任務將探索最新的稠密段落檢索方法,相較於傳統字面匹配,能夠大幅提升檢索系統對查詢和候選段落進行語義建模的能力。

知識對話——讓系統具備利用搜索引擎知識進行開放域對話互動的能力,提升對話的豐富性與知識準確性。智慧音箱、虛擬人、語音助手等對話應用產品已經融入日常生活,但在實際聊天時卻經常出現“智商”不足的現象,本次競賽讓機器人學會利用全網知識,為人機對話 “智商線上”的實現提供可能。

情感分析可解釋性——讓情感分析模型更可解釋,從合理性、忠誠性等維度評測模型的可解釋性,進而推動構建更加可解釋的模型。本次比賽首次提出情感分析的可解釋性評測,可解釋性是下一代人工智慧重點“可信AI”的重要維度,能夠針對性緩解神經網路模型“黑盒”特點帶來的結果不可信問題,具有非常高的探索價值。

影片語義理解——讓機器對影片進行內容分析與理解。在移動網際網路、大資料的時代,影片資料呈現爆發式增長。傳統基於感知的影片內容分析,缺乏語義理解能力,本賽題提出知識增強的影片語義理解技術評測,期望融合語言、知識、視覺、語音等相關技術和跨模態資訊,深入且全面地理解影片語義。 這四大任務賽道不僅覆蓋NLP的前沿領域,也反映了真實應用的需求,具有很高的學術和產業價值。

中文NLP領域缺資料? 聯手千言,首發多個重磅資料集

推動人工智慧技術進步的三大驅動力是演算法、算力和資料。在這三者中,資料作為演算法學習的基礎,其數量和質量直接決定了演算法能夠達到的上限水平,好的語料可以極大推動相關領域的技術發展和行業進步。

而在自然語言處理領域,英文的開源資料集百花齊放;反觀中文資料集,存在開源數量少且分散的情況。為了推動中文NLP資料和技術的發展,“千言”開源資料集專案應運而生。

本次語言與智慧技術競賽聯手“千言”專案,首次公開多個最新中文資料集:來源於實際應用場景的大規模段落檢索資料集DuReader_Retrival、領域開放的搜尋知識對話資料集DuSINC、情感分析可解釋資料集DuExplain、大規模影片語義理解資料集DuVUnderstanding。這些資料集具有很高的技術價值,將在本次評測期間,免費開放給參賽選手進行技術研究和探索。

另外,為了全力創造最佳競賽條件,充分激發選手的創新靈感,百度作為本次大賽承辦方為參賽選手提供了全面的技術資源和平臺支援。其中,百度飛槳平臺為四大競賽任務提供了基線系統,幫助選手快速上手。同時,基於百度飛槳的人工智慧學習與實訓社群 AI Studio還提供了線上程式設計環境、免費 GPU算力支援,打破算力桎梏,在競賽全流程為選手斬獲佳績護航。

2022語言與智慧技術競賽將於3月30日正式開啟報名通道,歡迎進入“2022語言與智慧技術競賽官網”( http://lic2022。cipsc。org。cn) 瞭解詳情、進行報名。