在2018年中央電視臺春節聯歡晚會上,以百度無人車等為代表的高科技產品登上了電視熒屏,這使人工智能再次成為社會熱議的話題。2月21日,百度自然語言處理團隊研發的 V-Net 模型以46.15的 Rouge-L得分登上微軟的 MS MARCO 機器閱讀理解測試排行榜首,機器閱讀理解領域再次引起內業關注。
正如百度自然語言處理首席科學家兼百度技術委員會主席吳華所說此次在 MARCO 的測試中取得第一,只是百度機器閱讀理解技術經歷的一次小考,未來百度還希望能聯手領域內的其他同行者,推進機器閱讀理解技術的應用和研究。為實現這一愿景,由百度、中國中文信息學會評測工作委員會(CIPS)和中國計算機學會(CCF)聯合舉辦2018機器閱讀理解技術競賽,3月1日,競賽官網http://mrc2018.cipsc.org.cn/ 正式開啟報名通道,并將在第三屆語言與智能高峰論壇舉辦競賽的頒獎典禮和學術交流活動。
為了進一步提升機器閱讀理解的研究水平,推動語言理解和人工智能領域技術研究和應用的發展,2018機器閱讀理解技術競賽孕育而生。本次大賽的任務是對于給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, ..., dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。為了便于參賽選手快速了解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,并采用ROUGH-L和BLEU作為評價指標。
此外,百度公司將提供30萬個來自于百度搜索的真實問題的數據集,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案,這些數據集將被劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了DuReader中已發布的20萬問題數據,用于預訓練和測試,成功報名競賽的團隊將獲得新增的10萬問題數據集。
通過本次競賽,百度公司將提供應用于真實場景的大規模中文閱讀理解數據集,為研究者提供學術交流的平臺,一方面進一步提升機器閱讀理解技術的研究水平,提升算法優化的驗證效率,吸引、發掘優質AI人才,助力我國高素質AI人才培養,為高質量的算法工程師打下基礎,培養中國人工智能領域的精英技術儲備人才;另一方面,希望鼓勵探索人工智能學科的應用價值,用AI技術增強用戶體驗、優化產品功能,提升用戶獲取精準信息的效率,以技術落地改善未來生活。百度公司希望本次比賽能從學術與行業賦能機器閱讀理解,提升中國在人工智能領域的影響力。
作為技術型互聯網企業,百度多年深耕的AI技術已處于世界領先水平,在語音識別、圖像識別、無人駕駛、深度學習等領域遍地開花,同時逐步將AI技術融合到各行業中去,以技術為驅動改變現實生活。不久前,在美國權威雜志《麻省理工科技評論》公布的2018年全球十大突破性技術中,百度成為本年度唯一入選的中國公司,也是史上首個連續3年入選該榜單的中國公司。#p#分頁標題#e#
未來,百度公司將做出更大努力,開放海量優質的數據,助力機器閱讀理解技術的迅速崛起與落地,降低機器學習、深度學習的門檻,進一步培養和挖掘人工智能人才,使 AI 能夠理解人類的語言、用自然語言與人類交流,讓 AI 更懂人類。在此,百度誠邀所有AI數據集有興趣的技術人才了解和關注百度閱讀理解數據集。已公開的閱讀理解數據集可以自由下載https://ai.baidu.com/broad/introduction?dataset=dureader,并通過平臺提交測試集結果進行系統效果測試。除了閱讀理解數據集,百度AI公開數據集計劃BROAD(Baidu Research Open-Access Dataset)還發布了視頻和圖像數據集,更多數據集參見:https://ai.baidu.com/broad 。