當前位置:
首頁 > 新聞 > 人海戰術訓練翻譯引擎,百度正在製造「另一個百度」?

人海戰術訓練翻譯引擎,百度正在製造「另一個百度」?

人海戰術訓練翻譯引擎,百度正在製造「另一個百度」?



撰文:David Ramli、Alex Webb


百度通過勞動密集型方式研發深度學習


「未來3到5年,所有這些業務都可能成為另一個百度」

2016年12月6日,數以千計的翻譯人員湧入中國大陸各地的辦公樓,認真研讀宣傳冊、信件和技術手冊等外文資料,並仔細地將這些資料翻成中文。這場翻譯馬拉松每天進行15個小時,持續了整整一個月。提供資料的客戶以低價得到了原文資料的專業級中文譯本,而組織這次大規模翻譯活動的北京公司百度(Baidu Inc.)則可能獲得了更有價值的東西:訓練百度在線翻譯引擎的數百萬對英中辭彙。


AI領域的領頭羊


中國已經意識到,在人工智慧領域,面對Alphabet、Facebook、國際商用機器公司(IBM)和微軟(Microsoft)等競爭對手,低端模仿是行不通的。2017年2月,中國國家發展和改革委員會指定百度公司牽頭籌建新的人工智慧實驗室,這表明政府相信百度有能力成為中國人工智慧領域的頂尖企業。


在3月初的新實驗室揭牌儀式上,百度公司聯合創始人兼首席執行官李彥宏稱,公司從2014年中至今的研發支出超過了人民幣200億元(約合29億美元),其中大部分都投在了人工智慧上。2016年百度公司營收增長率從此前3年平均的逾30%降至6%左右,而對公司營收貢獻最大的搜索廣告業務也遭到本地競爭對手的圍剿。在截至2016年12月31日的財政年度,公司實現營收人民幣705億元。據市場研究機構EMarketer Inc.2016年9月發布的報告,阿里巴巴集團控股有限公司(Alibaba Group HoldingLtd.)已超越百度公司成為中國數字廣告市場的領頭羊。


百度希望人工智慧可以幫助公司收復搜索領域的失地,確保公司新業務取得成功。這對百度而言很重要,因為這家已有17年歷史的公司一直在努力推進業務多元化,但結果卻是喜憂參半。


據中國國際金融有限公司(China International Capital Corp.)分析師納塔莉·吳(Natalie Wu)稱,在截至2017年2月的12個月,百度旗下團購網站糯米的日訪客量下降了59%,旗下提供在線訂餐服務的百度外賣(Waimai)排名行業第三。此外,據華興資本證券(香港)有限公司[China RenaissanceSecurities(Hong Kong)Ltd.]的分析師埃拉·紀(Ella Ji)估計,儘管百度旗下類似Netflix的流媒體視頻服務愛奇藝非常受歡迎,但2017年需要在內容方面支出人民幣120億元。

人海戰術訓練翻譯引擎,百度正在製造「另一個百度」?



百度創始人、董事長兼CEO李彥宏在「百度世界大會」上發表演講


而多元化努力受挫則意味著百度進軍人工智慧領域的意義更加重大。「移動互聯網時代已經結束,」李彥宏3月10日接受採訪時說:

「我們將對人工智慧領域大舉投資,我認為這將使很多人受益並將改變各個行業。」



2017年1月,百度任命前微軟公司高管陸奇(Qi Lu)為公司首席運營官,其使命是圍繞深度學習、增強現實和圖像識別等技術重塑公司。百度人工智慧團隊已擴大至1300人,預計2017年還將增加幾百人。該團隊的人員目前分散在北京、深圳、上海和加州森尼維爾的研究室。

人海戰術訓練翻譯引擎,百度正在製造「另一個百度」?



近期頻繁發生人事變動的百度人工智慧部門


到2015年年中,由50人組成的百度人工智慧團隊推出了Deep Speech,一個可識別大部分英語會話的語音識別系統。該系統通過對大量語音數據進行解析後推斷出模型,而不是對詞語進行逐字拆分,這一過程就是深度學習過程。和依靠辭彙表和音標字典的傳統翻譯引擎相比,Deep Speech系統的識別準確率更高,因為該系統在確定每個詞的意思時考慮到了語境問題。


不過,在遇到外來詞時,即英語中那些逐漸為人們所接受和使用的來自其他語言的辭彙,Deep Speech經常會出錯。「如果你想說『放柴可夫斯基的音樂,』系統給出的答案可能是『放音樂並嘗試咳嗽滑雪,』」科茨說,「我們就直接把這類問題稱為柴可夫斯基問題。」


百度的程序員沒有將「柴可夫斯基」簡單地加入系統辭彙表,而是幫助Deep Speech教它自己理解這個詞。這涉及到輸入更多數據幫助系統學習語境問題。


百度公司駐北京的自然語言處理部副主管趙世奇(Shiqi Zhao)回憶說,當時作為哈爾濱工業大學(Harbin Institute ofTechnology)計算機專業的一名學生,他在研究計算機翻譯時只有200萬對英中辭彙可供使用,現在百度有大約1億對。但這仍遠遠少於Alphabet公司擁有的5億對辭彙。這一數據是《科學》(Science)雜誌上一篇關於Alphabet公司科學家QuocV.Le的文章中提到的。

人海戰術


為了縮小這一差距,百度採用了一種古老策略:人海戰術。公司現在常年贊助各類人工翻譯活動並定期組織像2016年12月那樣的翻譯馬拉松。在這樣的活動中,公司向客戶提供智能手機和凈水器等獎品。通過這些活動收集的數據有助於增強百度翻譯引擎的性能,推動Deep Speech的進一步開發。


2016年7月,百度森尼韋爾團隊開發的軟體推出了首款商業應用,這就是百度主打語音輸入的全功能智能手機輸入法TalkType。這一技術現已被應用到公司的其他產品中,包括類似蘋果公司智能語音控制功能Siri的個人智能語音助理「度秘」,這是該產品在中國的名稱,在其他地方其被稱為DuEr。(度秘是由百度的「度」加上秘書的「秘」組合而成。DuEr的發音聽起來像「doer」。)


百度灌輸給Deep Speech的機器學習有助於其他產品智商的提高。例如,它就是類似亞馬遜Echo的聲控機器人「小魚在家」的秘密武器。百度公司2017年1月在拉斯韋加斯國際消費電子產品展(CES)上展示了這款機器人。

人海戰術訓練翻譯引擎,百度正在製造「另一個百度」?



百度個人智能語音助理「度秘」


百度的多種網路產品使其能夠獲得關於中國消費者最多最詳細的數據,至少在理論上這應讓其擁有為中國開發人工智慧產品和服務的優勢。得益於糯米和百度外賣,百度公司知道中國家庭買什麼和吃什麼,而全球第二大在線旅行服務公司攜程網(Ctrip.com)的信息則顯示出他們希望到哪裡度假。每個月,6.65億智能手機使用者瀏覽百度的移動門戶網站並使用其應用軟體。


與此同時,3.41億人使用百度地圖。「有人認為人工智慧是個產品,這是錯誤的,人工智慧為產品提供支持並使其具有各種功能,」滙豐控股有限公司(HSBC HoldingsPlc)的分析師曾池(Chi Tsang,音譯)說,「想一想所有產品的實際使用情況吧。」


新的人工智慧產品尚未給百度帶來多少利潤。但它在人工智慧領域初步形成的專業優勢可能將有助於公司在已涉足領域佔據主導地位並推動其開拓新的業務,例如雲計算和自動駕駛汽車等。

「未來3到5年,所有這些業務都可能成為另一個百度。」



百度總裁張亞勤(Zhang Ya-Qin)說,他指的是百度602億美元的市值,「現在是時候下些賭注了。」


編輯:穆賽、格根坦娜


翻譯:一毫



立即獲得關於TA的更多信息!


超級富豪丨無人駕駛丨阿迪達斯丨iPhone面板


......


澳大利亞將面臨能源短缺

「鋼鐵俠」出手解決澳洲能源問題|視頻


盡在《商業周刊/中文版》App


長按識別二維碼,速速下載吧!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 商業周刊/中文版 的精彩文章:

全球擴張非「它」不可,揭開中國手機製造商名利雙收的秘密
億萬富豪達馬尼的致富信條:學習沃爾瑪的商業模式
WhatsApp在印度推支付功能,阿里巴巴Paytm面臨挑戰?
「騙子」橫行、內容糟糕、用戶不滿…在線廣告想名利雙收可能嗎?
熱衷去美國讀書的技術宅,現在這個國家還歡迎他們嗎?

TAG:商業周刊/中文版 |

您可能感興趣

印度海軍兩棲作戰「精英」竟拿這種槍訓練 笑噴了
美國新兵的戰鬥訓練,真槍實彈的高強度,沒幾個人扛的住
打造有深度的人魚線之仰卧屈膝上舉抬腿,一個舉腿訓練的簡單版!
槍械庫:千百次的訓練,只為這一刻榮耀!
他,為了身邊的人成功逆襲,打造混合訓練的巔峰藝術!
全方位多層次訓練,塑造迷人體型!
多一步,讓你的訓練事半功倍!
一名神槍手的養成,他們這樣訓練射擊的準度
打造有深度的人魚線-仰卧屈膝上舉抬腿,一個舉腿訓練的簡單版!
7個背肌訓練的經典動作,打造倒三角身材,這樣練就對了!
五個高強度訓練動作,讓你輕鬆練出球形肩膀!
打造麒麟臂,一定要試試這個超級組訓練
姿勢跑法訓練課丨這個月,上海還有最後一次機會!
印度這一舉動包藏禍心,居然要幫中國造潛艇「搞訓練」
高強度臀腿超級組合一訓練:5個動作讓下半身增肌更有勁
遼寧號一張訓練圖,完成了百年來最令人激動的壯舉
全方位多層次訓練,塑造迷人體型
7個超高難度腹肌訓練動作,一個都做不了!
高強度虎頭肩訓練,打造巨肩計劃!