創新工場、搜狗、今日頭條聯手打造中國最大AI科研數據集與世界級競賽平台 

2017年08月14日19:49  來源:人民網-IT頻道
 

8月14日,創新工場、搜狗和今日頭條聯合宣布三方攜手發起 “AI Challenger全球AI挑戰賽”。 本次競賽三方聯合旨在打造中國最大的科研數據集與世界級AI競賽平台,推動中國人工智能領域科研創新。據悉,大賽第一年啟動將開放超過1000萬條中英文翻譯數據、70萬個人體動作分析標注數據、30萬張圖片場景標注和語義描述數據,是國內迄今公開的規模最大的科研數據集。基於此次開放的數據集,AI Challenger全球挑戰賽面向全球AI科研人才廣發英雄帖,致力於促進人工智能行業向更為開放、融合以及國際化的方向發展。

在人工智能領域,數據的質和量是科學研究與產品技術研發的核心。高質量訓練數據對機器學習模型的建立和優化有關鍵性的作用。建立大規模、高水准的標注數據集,是推動AI科研和技術前進的驅動力。此次創新工場、搜狗、今日頭條三方聯手,在發布會上共同宣布 "AI Challenger 全球AI挑戰賽" 的社會責任宣言:“數據、算法、計算能力是人工智能的三大基石,其中,數據更是人工智能科研的最寶貴資產。沒有足夠好的數據,就無法取得世界頂級的科研成果。在此方面,學術界和創業團隊所能獲得的數據資源通常遠少於產業界中的頂級企業。因此,將高質量的數據集建設與科學研究、技術產品研發、人才培養有效結合,對人工智能發展具有重大意義,也是身為產業先驅應盡的一份社會責任。”

創新工場,搜狗與今日頭條是國內最專注於人工智能領域的三家公司,創新工場作為業內最早在人工智能領域布局的投資機構之一,自2016年下旬成立人工智能工程院,積極推動AI的研究與技術朝向產業實踐轉化。搜狗是最先將人工智能技術應用落地的互聯網公司,語音、圖像識別,自然語言理解,機器翻譯等技術均已應用於搜狗相關產品當中,包括搜狗搜索,輸入法,機器同傳等產品,在產業實踐中積累了大量語音、文本、圖像、視頻等數據集,同時沉澱了深厚的計算機視覺、自然語言理解、數據挖掘等方面的技術能量。今日頭條同樣是最早一批將人工智能技術應用於產品的公司,也是把算法、工程、產品、運營在人工智能應用層面結合得最好的一家公司,在產業實踐中積累了大量文本、圖像、視頻等數據集,並沉澱了深厚的計算機視覺、自然語言理解、數據挖掘等方面的技術能量。AI Challenger全球AI挑戰賽的誕生,也是三方拿出實際行動推動人工智能行業發展一次意義重大的集體宣誓。

對於發起本次合作,創新工場董事長暨CEO、創新工場人工智能工程院院長李開復表示:“在30多年前自己作為AI科研人員的時代,能接觸到真實世界的海量數據是個遙不可及的夢想。如今,伴隨互聯網和移動互聯網而來的大數據、高效的計算機運算能力等條件都齊備的環境下,有了AI Challenger這樣的開放數據集和競賽平台對於AI科研與開發人員是個難得的契機。AI Challenger致力於解決數據集缺失的問題,為人工智能科研免費提供海量數據,輔以強大的學術界和產業界專家指導,全力支持國內外的高校、研究機構、產業界科研人才一起來挑戰人工智能的未來可能性。”

搜狗CEO王小川表示:“人工智能本質是建立在大數據和機器學習的基礎之上。目前,搜狗以語言為核心的人工智能技術,已經通過問答、語音和翻譯等形態應用於搜狗搜索和輸入法等諸多產品中,並積累的大量的用戶與數據規模。其中搜狗的語音輸入日頻次已達2.6億次﹔搜狗的實時機器翻譯技術也在包括烏鎮世界互聯網大會等數百場會議上進行了落地應用。我們希望能夠利用搜狗的優質數據和應用場景助力AI Challenger全球AI挑戰賽,讓全球科研工作者取得更大的成就與突破,一起推動人工智能行業更快、更好地發展。”

今日頭條顧問、技術戰略研究院院長張宏江表示:“依托大數據和人工智能技術,今日頭條希望實現更高效的信息流動。身處人工智能行業,我們深知,人才和數據是整個行業的未來。這次頭條與搜狗、創新工場聯合舉辦AI Challenger挑戰賽的初衷,就是希望通過開放數據,吸引更多優秀人才參與到算法模型的開發、設計中來。比賽結束后,所有數據集會向社會全面開放,我們希望盡一些微薄的力量,為學術界、學術人才提供幫助,加強產學研結合,共同推動中國人工智能行業的發展。”

此次三方聯合開放的AI Challenger數據集涵蓋多個領域,包括最大規模的人體骨骼關鍵點數據集(用於無人駕駛、安防、體感游戲等場景)、最大規模的圖像中文描述數據集(用於圖像和視頻內容理解、圖像標題自動生成等各類應用)、最大規模的口語領域英中翻譯數據集(用於同聲傳譯等自然語言處理的各類應用)等。2017年競賽將區分為五個競賽任務供參賽者組隊報名,設有共計200萬元人民幣的獎金池。自9月5日起開放參賽隊伍線上進行數據集下載,三個月競賽持續直到12月。參賽的優秀選手還可獲得進入三家主辦方工作、實習或獲得投資的機會,並有機會在國際頂級學術會議上分享獲獎心得,得到如上海科技大學教授馬毅、曠視科技首席科學家孫劍、前Google研究院高級管理科學家林德康等十余位人工智能領域頂級專家評委的指導和評價。未來,“AI Challenger•全球AI挑戰賽”將持續投入,建設和發布更大規模的AI前沿領域高質量數據集,擴大涵蓋自動駕駛、智慧醫療、智慧金融、機器人等行業應用中的核心AI需求。

上月,舉辦了八屆的ImageNet挑戰賽由創始人之一李飛飛博士正式宣布退出歷史舞台。國際上,ImageNet挑戰賽曾是每年企業和研究者都極為看重的活動。另一機器學習競賽平台Kaggle著眼於真實數據和真實問題的解決方案,同樣吸引了全球將近百萬數據科學家和研究者進行挑戰和探索其多元化的公開數據集。創新工場、搜狗、今日頭條三方計劃在未來三年間投入數千萬規模的資金,不斷完善平台的建設、擴大數據集的規模,期許AI Challenger在三年內打造來自中國的世界級AI開放數據和競賽平台,成為推進全球人工智能研究和產業前進的新引擎。 

(注:此文屬於人民網登載的商業信息,文章內容不代表本網觀點,僅供參考。)

(責編:魏欣寧、連品潔)

推薦閱讀