當前位置:
首頁 > 最新 > AI Challenger開賽,林德康談數據集的重要性

AI Challenger開賽,林德康談數據集的重要性

「AI Challenger全球AI挑戰賽」,是由創新工場、搜狗和今日頭條三家國內人工智慧領域領軍企業共同發起的競賽活動,面向人工智慧領域科研人才,致力於打造大型、全面的科研數據集與世界級競賽平台。

作者|郭寶婷

微信公眾號ID|Xtecher

9月4日,「AI Challenger全球AI挑戰賽」正式開賽。來自世界各地的AI高手,將展開為期三個多月的比拼,獲勝團隊將分享總額超過200萬人民幣的獎金,並獲得頂級AI專家的指導。主辦方此次投入了千萬人民幣的成本,來打造百萬量級的計算機視覺數據集,和千萬量級的機器翻譯數據集,包括:超過1000萬條中英文翻譯數據、70萬個人體骨骼關鍵點標註數據、30萬張圖片場景標註和語義描述數據。以上數據集都已在大賽官網(challenger.ai)上線,供參賽選手下載,進行演算法設計、模型訓練及評估。

這是國內迄今公開的規模最大的科研數據集。包括最大規模的口語領域英中翻譯數據集(用於同聲傳譯等自然語言處理的各類應用)、最大規模的人體骨骼關鍵點數據集(用於無人駕駛、安防、體感遊戲等場景)、最大規模的圖像中文描述數據集(用於圖像和視頻內容理解、圖像標題自動生成等各類應用)等。然而,許多人還對「數據集」的概念比較陌生。Xtecher受創新工場邀請,對大賽機器翻譯指導委員會委員之一林德康教授進行了專訪,了解數據集對技術和行業發展的重要意義。

林德康,曾任加拿大Alberta大學計算機系教授,後出任Google高級管理科學家,Google搜索問答系統的創始人。2016年,回到國內創辦了語音智能公司奇點機智。他主攻NLP(自然語言處理)領域,曾發表逾90篇論文、被引用超過14000次,也是國際計算語言學會ACL Fellow里屈指可數的華人之一,是語義識別技術的專家。

以下是Xtecher對話林德康的採訪實錄。

Xtecher:什麼是數據集,它和普通的數據區別在哪裡?

林德康:最大的區別是規模,數據的規模不夠的話,其實是沒用的數據。還有一個區別是標註,數據集是有標註的。比如語言學的數據集,有例如詞性等component-wise的標註,也有例如不同語言的字字對應,是任務層次的標註。數據有標註,加上規模很大,才長時間有價值。

Xtecher:您如何看待主辦方每年投入過千萬支持競賽及數據集建設,學術界是否有對如此大規模數據集的需求?

林德康:AI的發展是靠演算法、數據集,和計算能力。演算法在學術界向來不缺,因為有學生專門做這方面研究,跟工業界比這是最不缺的。但是剩下兩個,數據集、計算能力,基本無法和工業界比拼。計算能力是需要錢堆出來的,佔多少資源就是多少資源。數據集花銷也非常大,但一旦做出來,大家都可以用。比如我在一個小實驗室里,計算能力有困難,可以通過有效的演算法來彌補,但是沒有數據集的困難是繞不過去的。數據集等於解決了數據跟硬體需求兩方面的問題,把AI帶向民主化。

Xtecher:您以前接觸了解過哪些數據集,有何問題或優勢可借鑒?

林德康:從八、九十年代開始,我們做語音識別、自然語言理解研究,用的都是公用的數據集。大家在上面做研究,共同切磋。還有比如Netflix十年前就開放過他們的數據集,設置一百萬獎金,然後讓大家幫著去想,最後出來很多新的技術。像Google這種大平台會有大量資金投入預算去做數據集。有時不是工業界和學術界的區別,而是必須這種大平台才能採集到大量數據,然後有人力和物力去處理它。

前幾年有公司發生過,開放了數據,三天就想收回來,因為有人通過和電話本cross-referencing把數據里的個人隱私信息獲取了。但是開放的數據就是潑出去的水,收不回來了,copy傳播很快。這對工業界是一個特別大的教訓。但如果是像AI Challenger這種專門準備好的標註好的數據,就沒有隱私和安全性的隱患。

Xtecher:這樣開放翻譯數據集和視覺數據集有何益處?

林德康:數據集開放出去,能讓大家都去想演算法,當時Netflix所做的,就是體現了這個商業需求。放了一定獎金上去,得到的結果比他們自己做要好一大截。數據集開放或是開放平台的意義在於,並不靠我自己做出一個完美的產品或體驗,但是創造一個機制,讓外部的開發者來幫著做這件事,幫的過程中也對開發者自己有好處。這種技術進化機制是可以超過任何一家公司的。

Xtecher:這也是AI Challenger邀請您出任機器翻譯指導委員會委員時,打動您的原因嗎?

林德康:對,這是其中一個原因。還有一點,因為我原來在高校當教授所以有感觸,這件事情對學術界的幫助尤其大,數據集開放了,很多學生願意來,能夠吸引到全國甚至世界上最好的人才來,給他們出名的機會。這對行業來講是一件非常好的事情,把工業跟學界連接起來了。

Xtecher:此次AI Challenger將翻譯數據集和視覺數據集開放給參賽者,您期待看到具備哪些特質的創業者脫穎而出?

林德康:最重要的是,有了數據集,要能figure out這個東西怎麼用。比如有人看到語言數據想到要做情感分析,那麼要是專門去標註,可能要不少時間,但是要是在整個網路的數據去找,看哪些相關、借用一下,像這樣的過程,就是去利用數據的創新的過程,看每個人的創新和想法。

Xtecher:您回國創立的奇點機智公司,也是做語義理解技術這一塊,當時是出於什麼原因選擇在中國市場做這項技術呢?

林德康:我們現在是做移動端上的東西,在移動這方面,中國要比美國和其他國家發展節奏快很多。舉一個最簡單的例子,手機操作系統的更新,比如每年安卓版本更新,到第二年已經有30%多中國用戶是最新版的。廠商版本更新越來越快,大家也不斷更新。而其他國家賣手機的機制不是這樣,你拿到一個手機,買的時候是什麼版本,幾乎就只用這個版本了,因為他中間有運營商等等的,動力不是讓你更新軟體,而是讓你這個覺得你現在的軟體太差了,得買新的硬體才能拿到軟體,更新節奏很慢。在中國就沒有中間這一層,所以手機廠商總是在跟別的廠商競爭,所以在中國做移動端的事情好一些。另外我想做些中文語義理解的技術,在中國做,落地和孵化更快。

Xtecher:那麼奇點機智現在技術和產品做得如何了?選擇什麼商業方向呢?

林德康:我們在做一個東西,叫應用助手。它有點像Apple的Siri,是個語音助手。但我們為什麼叫「應用助手」,是想讓每一個應用都能聽懂你的話,大眾點評或者滴滴都可以通過語音操作。Siri或谷歌的語音助手大多匹配原廠應用,如鬧鐘、電話、簡訊等,第三方應用覆蓋率非常低,連微信都控制不了。我們做的是,比如你說一句「把我的位置發送給XXX」,你的位置就在微信里發出去了。

Xtecher:聽您的描述,感覺您做的事像在打破界線,梳通所有埠。以後不同的應用、軟體、硬體,都可用語音作為界面,所以其實您說的也是一個將來的趨勢。那麼這種全方位打通的語音交互格局,什麼時候會實現呢?

林德康:可能不是我想實現就能實現的,要靠數據的積累。最後其實是數據問題,需要積累真實用戶的使用數據。要達到這點,首先要有用戶,要做成有用的東西才有人用。現在很多語義理解技術的產品已經在市面上出現,有更多的人在嘗試做這個,需求也非常明顯,但是好像還在等待一個突破,我希望我們能夠成為最早找到突破點的。

Xtecher:那麼就國內現在的語音識別、語義理解技術水平來說,這個突破點在哪裡?

林德康:現在語音識別做得很好,這些年技術進步非常大,幾乎可以當作一個已經解決了的問題,機器識別的準確度有時都超過我們自己,有時我們聽不清,還能藉助軟體猜出來。但語義理解技術領域還很不成熟,還處於嘗試階段,技術上需要提高的空間很大。因為自然語言非常靈活,同一件事情有各種各樣的說法,非常像甚至完全相同的說法,在不同場景中意思其實不一樣,這就比語音識別難多了。我覺得最終的突破是靠數據。要有技術、好的產品的設計、場景,真正讓用戶覺得這個東西能用、喜歡用,這樣就有更多的人參與進來,形成一個閉環,在裡面積累用戶數據。所以突破點不光是技術問題,要有產品和場景才能使用戶參與進來。

與林教授的看法不謀而合的是,AI Challenger的主辦方也非常重視數據對行業發展的重要意義。創新工場、搜狗、今日頭條三方在「AI Challenger 全球AI挑戰賽」發布會上共同宣布社會責任宣言說:「數據、演算法、計算能力是人工智慧的三大基石,其中,數據更是人工智慧科研最寶貴的資產。沒有足夠好的數據,就無法取得世界頂級的科研成果。在此方面,學術界和創業團隊所能獲得的數據資源通常遠少於產業界中的頂級企業。因此,將高質量的數據集建設與科學研究、技術產品研發、人才培養有效結合,對人工智慧發展具有重大意義,也是身為產業先驅應盡的一份社會責任。」

在人工智慧領域,數據的質和量是科學研究與產品技術研發的核心。高質量訓練數據對機器學習模型的建立和優化有關鍵性的作用。建立大規模、高水準的標註數據集,是推動AI科研和技術前進的驅動力。未來三年,AI Challenger主辦方將投入數千萬基金,解決數據集缺失的問題,相信將為人工智慧的技術發展提供強力的支持。

━━━━━

封面設計:楊帥先 排版:陳光 校對:陳光

━━━━━

如果您有國內外科技行業新鮮資訊或獨到見解,歡迎與Xtecher聯繫

Xtecher官網平台現開通認證作者,

(添加好友請註明公司、職位、事由)


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Xtecher 的精彩文章:

跨界商業領袖巔峰論壇
未來智慧城市離我們還有多遠?
圖靈機器人:用語義分析為機器人鍛鍊出超級大腦,讓它更聰明更有趣
區塊鏈技術將用於食品供應鏈管理
藍海數幣資本:老鷹站台 ICO投行業務落地

TAG:Xtecher |