當前位置:
首頁 > 新聞 > 從機器翻譯來看中國最酷AI挑戰賽:賽手體驗放第一位

從機器翻譯來看中國最酷AI挑戰賽:賽手體驗放第一位

雷鋒網AI科技評論:抓住時代機遇往往比個人努力更重要。

李飛飛在整個學術界和工業界的重心都放在如何做出更好的演算法時,她不顧一切質疑和阻撓創建了ImageNet數據集,至此世人再難複製ImageNet創立過的輝煌。同樣,參加了第一屆ImageNet挑戰賽的競賽優勝者,現在都出任了百度、谷歌和華為等公司高管(如林元慶,余凱,張潼)。還有些在獲獎演算法基礎上創立公司,如馬修?澤勒(Matthew Zeiler)2013年贏得ImageNet挑戰賽後,創辦了Clarifai公司,之後獲得了4000萬美元風險投資。 2014年的ImageNet挑戰賽冠軍中的兩位牛津大學研究者,賽後很快被谷歌吸收,並進入谷歌收購的DeepMind實驗室工作。 現在,參與ImageNet挑戰賽獲獎的企業和個人已遍布科技行業的每個角落。

從歷史經驗中不難看出,想要拿到名企實習工作機會,或加速自己的職業生涯進程,亦或贏得行業投資者的關注,參加技術評測大賽都是一條有效途徑。目前國內科研數據集規模最大,獎金最高,平台資源最豐富的當屬由創新工場、搜狗和今日頭條三家AI企業同發起「AI challenger全球AI挑戰賽」。

眾所周知,在人工智慧領域,要想獲得好的機器學習模型,數據的質和量是至關重要的。高質量訓練數據對機器學習模型的建立和優化一直起著關鍵性作用。人工智慧領域領軍人物李飛飛發起建立的ImageNet圖片數據集曾在計算機視覺、乃至整個人工智慧發展史上都發揮過里程碑式的作用。李飛飛曾說:「數據將重新定義我們對模型的看法「 。儘管深度學習今後的發展會趨向於半監督或無監督學習,但至少從目前來看數據的質和量仍是科學研究與產品技術研發的核心。

雖然深知數據對模型的重要性,但在AI Challenger 誕生之前,國內人工智慧領域成規模的、大型權威的評測比賽還是一片空白。反觀國際,無論是在圖像識別領域還是語音交互領域,都已經有很多舉辦多年且口碑、效果皆不錯的賽事。AI Challenger 的誕生可謂是給國內AI領域大規模賽事起了一個好頭,而且從官方給出的數據集來看,某些方面提供的條件甚至已超過國際同類賽事。

單從機器翻譯這個賽道來說,國際上的評測比賽幾乎全是機器文本翻譯,而AI  Challenger 在這個賽道上提供了兩個方向的賽題——英中機器同聲傳譯和英中機器文本翻譯。AI科技評論專程採訪了提供這兩個賽題的設計方案,同時也是大賽主辦方之一的搜狗科技,為大家介紹更詳細的賽事情況。


機器同傳的魅力何在?

在技術進步和文化擴散的雙重推動下,這個世界總體是在趨向於互通互聯。不同國家之間平等便捷獲取信息,低成本地有效溝通成為一種強烈需求。從這個意義上講,機器同傳正是為了實現人類打破不同語言壁壘的願望而生。搜狗語音交互技術中心總經理王硯峰說道:「搜狗是去年十一月在業界首發機器同傳,之後在近百場會議現場中演示過,「一邊用中文演講、一邊同步顯示英文翻譯」無論是給講者還是觀眾都帶來了很大的視聽震撼。」

記者曾經有一段時間經常會在朋友圈看到AI將會使同聲傳譯職業消亡的文章。這也可能是搜狗同傳確實震撼到大家了吧!

而實際上,機器同傳離真正的人工同聲傳譯還有一段距離,實時翻譯的速度雖已達到人類水平,甚至超越人類,但翻譯的準確度還有待提高。

機器同傳表面上看來是把語音識別和機器翻譯疊加起來達成的效果,其實這裡面還涉及到很多技術難題,比如語音識別之後的文本後處理,而文本後處理不單單是常見的語句分割,還包括雜訊去除,語氣詞去除等等。正是這些因素直接影響到機器翻譯出來的準確度。

王硯峰總經理告訴記者,「目前機器同傳遇到的這些問題還不是一個非常成熟的問題,像如何保證語義完整性,怎麼斷句,怎麼去除口語等問題,這些都不是一個統一標準,不是大家用一個深度學習模型就能解決好的。通過舉辦評測比賽來解決這類問題,在比賽過程中就會有一些好的自發創意出來,不管是是技巧性的創意,還是理論上的創新,最終這些創新、創意匯聚起來很可能就會比現有系統處理的效果好。機器同傳吸引大家的還有一點就是看起來很酷,很多具有國際參賽經驗的賽手都報名參加了,他們對具有挑戰性,新鮮感的賽題更感興趣,從比賽中獲得的成就感和快樂值也會更高。機器同傳就是一個這樣比較新興的方向,是未來機器翻譯的發展趨勢。搜狗開創這樣一個賽題,希望能在行業中引領大家往更實用的方向發展。」


精心打磨數據集,專註提升賽手參賽體驗

數據集對模型生成的重要性不言而喻,但並不是所有人都知道怎麼來評判一個數據集的優缺點,賽手也幾乎沒有機會接觸並參與到數據集的製作過程中。

搜狗在機器翻譯領域中有著深厚的技術積累,WMT 2017 中英、英中比賽中取得雙向第一

擁有國際大賽獲獎經歷的搜狗機器翻譯技術團隊,自然會對國際上同類賽事有著比較深刻的觀察和見解,在對數據集的評價上也比較有發言權。搜狗語音交互技術中心總監陳偉告訴記者,「NIST,IWSLT,WMT,這三大比賽是機器翻譯界的頂級評測,過去幾年這些比賽放出來的最大有效數據量(不包括完全公開的千萬級聯合國數據),其獨有的數據量是在兩百到三百萬之間。而AI Challenger賽事中,搜狗提供給參賽者是一千萬獨有數據量。」

另外他還向記者透露一些之前參加 WMT 2017的細節。他回憶道:「當時我們參加WMT 2017時,主辦方最多給到了六百萬數據,這些數據來自不同的組織和學術機構,數據的質量參差不齊。在參加評測的時候,由於數據的雜訊特別大,我們用了三到四個人,處理了兩周才把數據清洗完。」

也許正是體會到了數據清洗過程給賽手帶來的干擾和折磨,搜狗在此次AI Challenger 大賽中格外重視賽手的參賽體驗。「我們要把除了模型演算法以外的準備工作做到極致,讓賽手專心跑模型,不被其他因素干擾。」他說道:「搜狗這次給出的數據,都是找的專業譯員一條一條精標過的數據,這一千萬數據標準準確率都在97%以上。用了五十個全職譯員,花了三個月,全力以赴地才把這一千萬數據處理完。再加上前期的數據抓取,數據清洗等一系列準備工作,整個數據集的製作花費了大概半年時間。」

「相信在這些精心準備的數據前提下,參賽選手可以實現訓練出一個好的機器翻譯系統。"陳偉總監最後滿懷信心地說道。


除了瓜分百萬獎金,參賽隊伍還將有哪些收穫?

AI科技評論認為是包括搜狗在內的三家大公司提供的計算平台,以及相關的技術指導。畢竟現在大多數在校學生和科研機構面臨的共同問題是計算平台能力不足,數據量不夠。當算力和數據量都有限制的時候,會嚴重製約在科研上面的的發展速度。並且科研的最終成果是要到產業中落地應用,如果只是在實驗室跑演算法,模型再好也未必能在真實環境中經得住考驗。搜狗機器翻譯技術負責人王宇光也向記者表達了相似的觀點。

機器翻譯基礎能力,最好的技術還是在工業界,搜狗在過去一直專註於直接能在商業中落地,效果好且實用的演算法。另外搜狗在國際評測比賽中也積累了不少經驗,也有能力來指導大家做出更好的演算法。除了有專門的導師給予指導,搜狗在以往國際評測中使用的技術也會以評測報告的方式提交出來供大家參考。


賽事最新動態

參賽者的正向反饋使得主辦方們對接下來的比賽很有信心。搜狗方面向記者分享了他們目前從賽手身上獲得的一些驚喜。

第一,參賽的隊伍比預期要多。目前英中文本翻譯和同傳賽道提交的結果的隊伍已經達30多支。

第二,比賽報名除了來自於一些做機器翻譯的學校研究組或者研究機構以外,還有來自於其它相似研究方向的選手,例如NLP機器翻譯之外的研究方向。

另外賽手在後台對於賽制規則不清楚之處,或賽題不明白之處也做出了一些反饋,他們也都給了詳細解答。

隨著賽事的推進,搜狗負責大賽服務的團隊也從參賽者的反饋中看到了一些存在的問題,比如,選手可能會使用外部數據集來提升效果,這是大賽禁止的。

AI科技評論記者了解到,搜狗採取的措施是:首先比賽要求選手不能使用外部數據集合進行訓練,對於使用外部數據的結果系統不參與最終頒獎排名。此外,要求選手提交比賽系統詳細報告。最終要求選手參與答辯。這樣可以最大程度過濾掉一些「刷分」行為。


總結

雷鋒網小結:AI Challenger 的全球AI挑戰賽提供的數據集,都是從工業而來,從現實應用中獲取,這無疑會對演算法的開發以及實用性評估帶來更多的現實意義。搜狗語音技術團隊在他們自己的賽道上,投入了巨大的人力,物力和計算資源,目的就是希望能和大家一起來發揮聰明才智,共同把機器同傳做的更成熟,更有社會應用價值。有過從業經驗的行業人士都知道,從企業中獲取大規模數據並不容易,企業主動開放共享數據集更是難得一見。這樣的機遇並不是年年都有,希望已經在積極備賽的選手都能收穫自己滿意的成績,從比賽中得到能力的鍛煉和水平的提升,早日走向人生巔峰!

雷鋒網


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

阿里巴巴大力押注量子計算,雲棲大會宣布量子計算雲平台正式上線
麥格納加入寶馬英特爾聯盟,共同開發自動駕駛平台
如何確保快遞「最後一公里」 ,亞馬遜打算送到你的汽車後備箱
德國快遞和物流公司DHL與采埃孚達成合作,將在2018年部署自動駕駛測試車隊
英偉達推出Pegasus:搞無人駕駛計程車的公司,核彈又給你們準備好了

TAG:雷鋒網 |