當前位置:
首頁 > 新聞 > 百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?

百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?



百度王海峰Quora精華整理:未來5-10年,NLP領域將會有什麼進展?



雷鋒網按:近日吳恩達發文將在4月底離職百度。幾乎在同一時間,百度也宣布進一步深度整合,將包括NLP、KG、IDL、Speech、Big Data等在內的百度核心技術,組成百度AI技術平台體系(AIG),並任命百度副總裁王海峰為AI技術平台體系(AIG)總負責人,同時晉陞為Estaff成員,轉向百度集團總裁和首席運營官陸奇彙報。

王海峰是自然語言處理領域的權威科學家,是該領域最具影響力的國際學術組織ACL 50多年歷史上唯一出任主席(President)的華人,同時也是截至目前最年輕的ACL Fellow,也是唯一來自中國大陸的ACL Fellow。此外,王海峰博士還是中文信息學會理事、中文信息學報編委、中國計算機學會(CCF)高級會員、國家自然科學基金委員項目評審會評審專家組成員。此前,雷鋒網也整理過王海峰博士在AAAI2017上的演講《深度 | 百度副總裁王海峰:百度在NLP領域都做了什麼?》。


王海峰博士出席的媒體活動不多,但在Quora上比較活躍。雷鋒網根據王海峰博士在Quora上的五個精華問答整理成本文。



1、從一名科學家轉變為一個IT公司的總裁,你如何看待這種職業變化?



我對技術感到著迷,並樂於沉浸在研究工作里。我始終相信,科技能夠改變世界。百度為我提供了一個理想的平台,在這裡我從事的技術工作可以快速直接地讓用戶受益。這就是我一開始加入百度的原因。在百度最初的幾年時間裡,我領導了NLP、語音、圖像、數據挖掘、知識圖譜、機器學習、深度學習等多個團隊。後來,我意識到偉大的產品將會連接技術與廣大用戶,反過來也會更加促進技術進步。偉大的產品,不僅需要先進的技術,還需要傑出的設計、優秀的營銷和高效管理。因此我漸漸改變了自身的角色,從一個單純的研發團隊負責人,轉變為管理層的一員。我如今領導的團隊有3000多人,包括技術、產品和營銷成員,他們都很年輕、精力充沛、富有激情。我們擁有著一個共同目標:用技術和產品改變大眾日常生活。

當掌管一個大型商業團隊的時候,我需要首先制定策略和目標,然後建立一個合適的執行團隊。對於一個大型團隊來說,良好的規則和文化,開始成為支撐和保證業務運行的重要因素。與此同時,對於科技領域的重大突破、用戶需求的演變,以及整個社會的發展趨勢,我都保持極大的關注。



2、未來5-10年,NLP領域將會有什麼進展?



機器翻譯、語義理解、問答和對話技術將會有重大突破。這些技術將會被廣泛應用,並最終改變人與計算機、人與各種硬體設備、以及人與人之間的溝通方式。


這些技術的發展將得益於以下四個領域的發展:大數據、學習機制、知識圖譜、推理和規劃


大數據。隨著互聯網的繁榮,數據量和種類都在高速增長。即便是非常傳統的商業領域,都在開始把數據放到網上。一切都在網上進行,一切都在互聯。大數據的價值將繼續在物聯網領域增長。

學習機制。學習機制的發展將會持續進行,這使得我們能從大數據中學習更多的東西。


知識圖譜。通過大數據和更多強大的學習機制,我們可以打造更大的知識圖譜,來對整個世界進行建模。


推理和規劃。通過大型知識圖譜,我們可以在推理和規劃領域取得突破。推理和規劃的能力將會把更多智能注入NLP系統中。



3、在NLP領域,中文和英文的主要區別是什麼?



從語言學上來說, 中文與英文有很大不同。中文書面文本單詞之間是沒有空間的,中文的語法關係是通過單詞的順序來表達的。這些因素增加了中文在辭彙、語法和語義層次上的模糊性,因為現代語言概念和原則更適用於英文,而非中文。

目前,主流NLP方法都是語言無關性(language-independent)的。這些統計學或神經網路演算法,根據不同的應用,都更進一步優化了特定語言 。


比如,在2015年5月,百度發布了第一個大型在線神經機器翻譯系統。基礎的NMT模型就是語言無關的,並輸出了非常好的翻譯結果。為了進一步改善翻譯性能,我們使用特定語言特徵優化了翻譯系統。



4、NLP技術如何應用於百度產品里?



在百度,我們開發出很多NLP技術,包括知識圖譜、語義理解、內容標註、情感分析、生成、摘要、問答、機器翻譯和對話系統等等。這些技術已經應用於許多百度的產品里,比如搜索、新聞流(news feed)和智能助理,每天為數億用戶服務。我們將以上這些技術通通整合進一個名為NLP Cloud的平台中。

NLP Cloud提供20多種NLP模塊和方案,服務於百度產品。我們的NLP Cloud服務每天被調用1千多億次。


以搜索為例,典型的NLP模塊,比如切詞、命名實體識別、語法分析、釋義都是基本特徵。這些模塊一直在持續優化並取得突破。另一個典型的NLP技術應用案例就是問答系統。一個高性能的問答系統需要對查詢語句進行精準的語義分析,構建覆蓋面廣的知識圖譜,同時對網頁搜索結果進行全面分析。當用戶在搜索框輸入查詢語句時,搜索引擎能夠立馬提供答案。很多用戶也使用搜索引擎來查詢相關性高的信息,幫助做決策。這種情況下,情感分析(也稱觀點挖掘)技術可以幫助提取多種備選觀點,並將聚合的信息提供給用戶。


另一個案例就是新聞流,這個領域文章質量是極其重要的。NLP技術可以幫助檢測各種垃圾文章,比如謠言、抄襲等等;而文本分析技術可以幫助識別高質量文章,並生成最能夠描述該文章的標籤。此外,從不同維度描述用戶偏好的「用戶模型」也十分依賴於NLP技術。


總而言之,在所有跟自然語言相關的產品里,NLP技術都是不可或缺的



5、在未來10年,搜索引擎將會如何演變?



今天當我們談及搜索引擎的時候,首先想到的就是搜索框和搜索結果。而未來的搜索引擎將會是什麼樣子呢?我們並沒有確切答案。但是我們樂於擁有更強大的搜索引擎,讓我們在不同的場景、不同的產品或不同的交互界面里,能夠看見、聽見和感受到。搜索,將會無處不在


第一點,更深入理解用戶的意圖、更深入理解內容,並將兩者更精準地進行匹配,這將會使搜索引擎更為強大。用戶的意圖理解並不是依賴於單一查詢語句,也還依賴於更廣泛的搜索語境,包括查詢session、時間、地點、設備以及用戶性格特徵。另一方面,內容理解涉及的範圍也非常廣,需要更好地理解每一部分內容的語義、語境、觀點,以及從內容中提取的知識。意圖與內容的匹配,將會涉及到以上提到的所有因素,使得在任何一個特定語境下,為每一個查詢提供最好的結果。此外,搜索引擎將會變得更像一個「回答引擎」和「執行引擎」。大部分用戶的查詢,將會得到直接的回答或執行。


第二點,搜索交互界面將會發生很多新變化。除了鍵盤以外,其它輸入方式,比如聲音和圖像,將會越來越廣泛地使用。伴隨更實際的語音和圖像等技術,用戶會十分青睞高效和便利的多模式搜索。特別地,自然語言交互將會成為搜索引擎的主流交互方式。用戶可以跟搜索引擎「對話」,告訴它自己想要什麼,這絕對比現有的鍵盤輸入文字查詢要方便和自然的多。用戶也可以跟搜索引擎進行多輪對話交互。百度搜索已經率先應用了這類新型交互方式,提升用戶體驗。


第三點,搜索將會超越現有的搜索引擎的範圍。搜索會嵌入各種產品當中。比如,搜索會是AI硬體產品的基本特徵之一。未來,搜索將會包圍在我們身邊,無處無在。相應地, 我們也將重新定義什麼是可以被搜索的。除了現有的被索引的內容,在未來,服務、物品、設備和數據都可以被索引,變得可搜索。


很長時間以來,搜索引擎在人們日常生活中扮演至關重要的角色。人們的需求決定了搜索引擎演變的方向,而技術進步則決定了這種演變將走向多遠。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

在 VR 遊戲中如何死亡?
乾貨!top白帽子 Gr36_ 手把手教你挖漏洞|2017 先知白帽大會
深圳灣公司與PonyCar馬上用車聯手 打造「科技園區+共享汽車」的出行樣板
日本公司開發出轉化率破紀錄太陽能電池,轉化效率26%+
700塊錢「買到」全國簡歷,「58同城信息採集器」到底有多逆天?

TAG:雷鋒網 |

您可能感興趣

Sea to Summit 海峰2017款增強型自充氣睡墊 高海拔測試簡評
蘇迪曼杯-中國Vs印度 傅海峰/張楠2-0對手
吳恩達out,王海峰林元慶in!百度人工智慧迎來新篇章
雲棲大會·上海峰會正式召開:YunOS 6即將發布!
百度王海峰獲全國創新爭先獎;谷歌 TPU 之後,蘋果也研發 AI 專用晶元;福布斯評6大AI思想家
77級大學生劉海峰:我是高考制度的維護者
養胃食材有哪些?---海峰汽車
張豐毅丁海峰與美女熱煉驚現《Battle!好身材》
《戰狼2》40小時破4億,丁海峰兩個字看哭觀眾,票錢值了
傅海峰,羽毛球ICON,你們得同意吧?
丁海峰總算火了,從武松到戰狼,用了15年!
永遠的胖達:阿寶 擁有麒麟臂33歲世界羽壇名將傅海峰告別國際賽場
王海峰掌舵百度AI技術平台,百度首席科學家吳恩達宣布辭職
谷歌PhD獎研金獲得者徐海峰:「幸運」的演算法博弈論之路
Science子刊封面:華東師大葉海峰課題組實現手機遠程診療糖尿病
78歲離休,93歲仍信筆疾書,上將萬海峰書法欣賞
「我是被吳京忽悠來的」,《戰狼2》中的丁海峰喊哭了多少人
蘇迪曼杯決賽中國Vs韓國 傅海峰/張楠出戰男雙
《戰狼2》中的丁海峰喊哭了多少人,「我是被吳京忽悠來的」