當前位置:
首頁 > 科技 > 對話雲知聲CTO梁家恩:三大技術、四大行業解讀全棧AI體系

對話雲知聲CTO梁家恩:三大技術、四大行業解讀全棧AI體系

智東西(公眾號:zhidxcom)文 | 季瑜生

雲知聲最近搬了家,原來的辦公室已經裝不下現在五百多人的規模。或許對於一個創業公司而言這已經是一個不小的數量,但在梁家恩看來,對一個AI領域獨角獸級別的全棧玩家而言,這已經是一個非常精簡的人員規模了。

這也是智東西對話梁家恩的過程中,讓他頗為自豪的一點。依託產品化思維解決行業問題以及金字塔結構的靈活高效AI技術架構,不僅為雲知聲帶來了人才的高效利用,同時也讓雲知聲的快速遷移部署能力遠遠超越多數同行。

與此同時,作為一家以語音技術起家的AI企業,智東西發現,我們已經不能簡單的用語音技術玩家來定義這家企業。從交互入手,雲知聲已經構建起了包括異構超算平台、AI晶元、語音圖像交互演算法等一系列全棧、硬核的AI體系。

在一個多小時的深入交流中,智東西與梁家恩詳細探討了雲知聲全棧、硬核的技術體系構建以及產品化思維做B端服務的邏輯,以及對於超算中心,對於IoT晶元與演算法,他的一些真知灼見。


一、語音技術起家,雲知聲的全棧、硬核AI技術體系構建

但凡對語音行業稍有了解,就一定不會對雲知聲這家企業感到陌生。

這家當前在國內語音交互領域處於第一梯隊的AI企業,誕生於2012年6月。那時候,AI創業在行業中尚屬稀缺,深度學習也尚未完全成熟,就連Alpha Go大戰李世石也發生在四年之後。

雲知聲技術與應用迭代圖

但是在那時候,雲知聲就已經一頭扎入了AI交互方案的研發,並在2012年底,就完成了包括語音雲、深度學習及超算平台的三駕馬車構建,率先將深度學習應用到語音識別產業服務中,通過深厚紮實的技術研發奠定了在行業中的廣泛影響力。

接著在2014年初,雲知聲又提出了「專註物聯網人工智慧服務」的定位,以及面向物聯網的「雲端芯」概念和產品體系構想,並在此後數年中,不斷打磨智能交互技術能力和應用服務體系,進一步完成了包括遠場、降噪、喚醒、語用計算、流式交互等物聯網智能交互功能完善和量產應用,並拓展口語評測、車載後裝市場、醫療等多個領域的行業應用。

值得一提的是,雲知聲作為演算法和軟體起家的公司,2014年就意識到智能交互與物聯網結合是大勢所趨,並提出了「雲端芯」的產品體系構想。經歷四年的研發,才正式於2018年5月推出了首款面向物聯網的AI晶元UniOne雨燕(Swift),宣告了「雲端芯」閉環的完成,也開啟了「雲+芯」的商業擴張與應用落地的加速階段。

而所謂「雲端芯」一體化方案,是雲知聲為智能物聯網產業,提供從「智能交互」到「應用服務」的全套基礎架構:

1、雲——雲知聲的Athena智慧大腦,為行業應用提供認知計算、領域定製、個性化的內容服務平台,以及基於用戶行為數據的快速學習迭代能力

2、端——物聯網智能交互和應用,針對領域應用進行快速定製

3、芯——為AI交互與應用,提供高性能、低成本的邊緣計算能力

其中「雨燕」晶元,是雲知聲通用ARM晶元模組完成智能家居語音交互產品驗證情況下,推出的高性能、低成本、一體化晶元解決方案。「雨燕」架構內置的uDSP單元,可支持多麥克降噪和聲源定位;DeepNet單元則是雲知聲完全自主研發的深度神經網路處理器(NPU),實現語音識別、理解、合成所需的深度學習計算加速。這兩個核心單元,濃縮了雲知聲在語音交互能力上的多年積累與經驗,為市場提供了極具競爭力的方案。

雲知聲雨燕晶元

此外,雲知聲在「雨燕」集成語音交互核心技術能力基礎上,為用戶提供可定製的交互源碼、工具以及雲端AI服務能力,將人機交互部分代碼對用戶開源,用戶可以根據不同的產品形態需求,定製相應的交互模式。

正是基於這種靈活開源的架構設計,雨燕在高效和可靠支撐當前的語音交互和定製化能力的同時,保持對演算法演進的靈活性,進一步可以完成快速的產品迭代以及定製化開發能力。

截至當前,雲知聲已經確立起了包括語音、語義以及圖像為代表的AI技術體系、以雨燕為代表的AI邊緣計算晶元以及Atlas為代表的超算平台三大技術體系,形成了「雲端芯」一體化的產品架構,並實現在智能家居、車載、醫療、教育四大應用領域的規模化驗證。

梁家恩將雲知聲的這種技術與產品的構想和實現能力,歸納為雲知聲的AI哲學,並用「全棧」和「硬核」兩個關鍵詞進行概括:

全棧——既包括從感知、表達到認知的完整AI技術圖譜,也包括貫穿技術、產品與產業閉環的全棧AI產業能力,可以把技術創新和整個產業應用需求價值的閉環打通。

硬核——是從底層感知、認知和表達技術,到AI晶元和超算平台的硬核技術實力,解決AI技術產業化應用中的難題。

在他看來,雲知聲從語音交互技術起家,能夠在不到七年的時間內,拓展出包括語用計算、圖像識別、機器翻譯等全棧技術體系,並在四大領域拓展產業應用,在很大程度上受益於其高效的技術研發體系和平台——基於Atlas超算平台的三層「金字塔型」研發體系構建:

雲知聲的AI技術圖譜

首先是位於金字塔最底層的異構超算和存儲集群DeepFlow——它具備上千塊GPU計算資源,超過一億億次每秒的浮點計算能力,以及PB量級的分散式存儲,可以為上層的超算平台以及應用提供高密度的計算以及存儲能力。

其次是位於中間層的大規模機器學習超算平台Atlas——能高效調度DeepFlow提供的分散式並行計算和存儲能力,實現大規模數據的機器學習試驗和優化,這是上層AI技術應用優化的共性基礎。

最後是位於最頂層的雲知聲AI應用技術體系,包括:DSP(信號處理)、ASR(語音識別)、TTS(語音合成)、FID(人臉識別)、OD(物體檢測)、NLU(自然語言理解)、DM(對話管理)、NLG(自然語言生成)、NMT(神經網路機器翻譯)、AVS(音像合成)等多種演算法,其快速拓展和迭代優化,都是基於Atlas平台。

梁家恩將Atlas平台稱為雲知聲AI技術拓展和演進的「高鐵」,基於Atlas超算平台和AI技術功底,雲知聲在圖像和機器翻譯等技術延伸方面得心應手,用不到一年的時間,就實現從零到一到技術延展,並在國際評測集上取得領先的成績,包括WMT2018世界機器翻譯評測第三名,人臉識別標準評測資料庫LFW和MegaFace上,分別取得了99.80%和99.47%的成績,而且參與每個方向評測的只有2~3人,效率非常高。

得益於這種高效、靈活的金字塔結構的技術研發體系和平台,雲知聲才能在2018年400人規模下,實現了從語音技術向信號、圖像、翻譯、知識圖譜、智能晶元等全棧技術的快速拓展,以及「雲端芯」產品體系在多個行業應用中的規模化商業應用。

不過,梁家恩最後也表示,為支撐產業技術挑戰,雲知聲還聯合包括自動化所、西北工業大學、杜克大學等院校進行聯合研發,並攜手中國中醫科學院、上師大等高校,推動在醫療、教育等行業的應用研究,也是雲知聲在技術和人才儲備方面的一大靈活體現。


二、AI商業化的殺手鐧:用產品化思維解決行業問題

曆數雲知聲的四位創始人:董事長兼CTO梁家恩與副總裁康恆都取得了中科院自動化所的博士學位,CEO黃偉與副總裁李霄寒則是畢業於中科大的博士,同時,在Moto、盛大等企業有多年產業界實戰經驗。

創始人全數知名高校與研究院所的博士出身,公司78%都是研發人員,這是雲知聲在技術研發方面一個巨大的優勢,但是在梁家恩看來,AI技術能力對AI產業化而言只是個基礎。技術領域從0到1很難,從1到10也充滿挑戰,但對整個產業而言,還需要跨越從10到100以上的挑戰——即產品化、商業化和模式創新,才算真正帶來產業的變革。

過去兩次AI浪潮,基本上都是學術AI的「自嗨」,第三次AI浪潮,技術基礎、產業基礎和需求都日漸成熟,產業力量成為引領行業變革的主力,而雲知聲相信,產業機遇就在問題背後。

因此,相比很多同行企業,雲知聲更早的將AI技術產品化,並與行業應用結合。從2014年雲知聲提出「專註物聯網人工智慧服務」的定位以來,不斷將AI技術與物聯網應用結合,以「雲端芯」一體化解決方案,積極拓展智能家居、汽車、醫療、教育等產業應用,5年過去,雲知聲在這些產業應用方向均取得了豐碩的成果。

首先,智能家居領域,成為雲知聲「雲端芯」一體化方案構想落地的首選場景。物聯網和智能家居,對行業而言並非新概念,在上世紀90年代就提出的構想,但一直沒有實現,雲知聲認為主要問題在於「人機交互」和「應用服務」的核心問題沒有得到有效解決。

雲知聲的「雲端芯」一體化解決方案,將雲端智能服務、智能技術演算法、硬體模組/晶元、終端交互邏輯合為一體,讓專業度很高的智能交互與應用方案,能根據客戶需求和應用場景,進行快速定製和優化,極大提升了規模化落地的效率。梁家恩打了一個形象的比方,這就像從為合作夥伴提供水泥與鏟子,變成了直接為他們鋪路,而合作夥伴只需要根據自己的意願來對路面進行簡單的布置以及刷漆。

而在當前,雲知聲在這一領域的合作夥伴已經覆蓋了格力、海爾、美的、奧克斯、長虹、京東、華帝、海信等幾乎所有主流家電企業。在戰略融資階段,雲知聲還獲得了來自高通、京東、360、美的等一眾產業資本的聯合投資,並在業務方面完成了相應的產業布局。

其次,雲知聲從2015年起,還積極拓展在智能車載後裝市場應用,同樣以「雲端芯」產品體系,為客戶提供包括智能後視鏡、智能車機等智能語音交互整體解決方案,主要挑戰是車載雜訊、導航和娛樂媒體等優化。

雲知聲的智能車機

當前,雲知聲在汽車智能車載後裝市場上,可以做到兩周內完成集成優化與交付,服務用戶也超過2000萬,市場佔有率超過70%,並與賓士、上汽、吉利等眾多品牌商建立了緊密的合作關係,在2018年9月與吉利億咖通成立合資公司。

最後,在為智能家居、車載等智能硬體設備提供人機交互解決方案,觸達終端用戶的同時,雲知聲還積極拓展教育、醫療等服務領域應用。在雲知聲看來,智能交互只是解決效率問題,作為智能化的切入點,而為用戶提供高質量、個性化的內容服務,深度推動行業閉環優化,才是本質需求。

正是基於這種理念,雲知聲2014年起,為教育領域客戶提供口語評測技術SaaS服務,目前日均調用量已經超過2.7億次,覆蓋用戶超過五千萬,主要客戶包括新東方、一起做業務等80多家企業。

2016年起,雲知聲還相繼為北京協和、浙大附一院、中山醫院等上百家三甲醫院提供語音電子病歷錄入、超聲助手、智能導醫等方案,語音電子病歷,能夠幫醫生將病例處理時間從每天3個多小時,縮短到1小時,極大提高效率。

雲知聲為某醫院提供的電子病歷錄入

2017年起,雲知聲推出面向兒童的教育和陪伴機器人方案,去年方案出貨量超過400萬台,居行業第一位,集成了唐詩宋詞、成語接龍、英語學習、數學計算、童話故事、兒歌等豐富的內容與功能。目前,雲知聲已經與喜馬拉雅、蜻蜓FM等達成了合作,包含詩詞曲庫7萬餘首以及超3000小時原創精品內容,並可以完成20多種交互應用模式。

搭載雲知聲方案的機器人

到2018年,雲知聲在智慧醫療方面,與平安好醫生達成深度合作,成立合資公司,探索AI與醫療應用結合。與此同時,在語音電子病歷基礎上,還延伸了基於醫療知識圖譜的病歷質檢方案,解決醫療電子病歷的質量控制問題,開始從外圍工具,向醫療業務深度結合的嘗試。

儘管從行業跨度看,雲知聲所選擇的四大應用領域幾乎無一不是壁壘高築並充滿挑戰,但是在梁家恩看來,雲知聲的商業化路徑選擇,並不是以難易來作為判斷標準的,而是考慮這些應用場景中,用戶對智能交互是否有足夠強的需求,以及是否具有明確的行業應用價值。

在梁家恩看來,AI產業革命是沒有捷徑可走的,要有選擇「正確」而不是「容易」道路的眼光和勇氣;商業規模化增長的核心並非ToB和ToC的區別,而在於產品標準化程度。因此,在他的規劃中,如何根據自身的技術優勢搭建起合理的產品化體系,並通過產品化思維來解決行業問題,是他考慮最多,也是雲知聲持續發力的重點。

梁家恩透露,通過這些年「雲端芯」產品體系的持續打磨,雲知聲在ToB客戶需求實現方面,產品標準化程度已經達到80%以上,大多數的行業應用,都能夠通過非常低的人力投入,快速實現項目落地,這是雲知聲推動AI高效商業化的殺手鐧。


三、雲知聲的AIoT野心與挑戰

自從雲知聲2014年將AI技術的產業化賽道定位在AIoT以來,在全棧AI技術與「雲端芯」產品體系構建,以及產業化應用拓展方面,都已取得了不錯的成績,但在梁家恩看來,這只是AI產業化的序章,未來挑戰將更加艱巨。

而問起雲知聲今年的小目標,梁家恩則表示,雲知聲2018年收入相比2017年增長3倍,今年雲知聲的目標還是增長2~3倍,這一數字已經拆解到各業務與技術層面,已經定下了詳細的產品和商業規劃。

首先,在底層技術方面,梁家恩表示,這些年深度學習結合行業大數據,確實在產業化應用突破方面起到了重大作用,但對於產業變革來說,光靠一塊拼板是不夠的。

深度學習本質上解決的是大數據、端到端的序列映射問題,極大程度上發揮了海量真實數據和複雜建模方法的威力,這是這些年產業化應用突破的基礎。但深度學習本身的數據需求規模、不可解釋性、攻擊防禦等方面,本身有很多工作要做,更重要的是,很多理解和認知等方面的問題,在數學上並不是一個簡單的序列映射問題,需要結合知識圖譜、應用場景、用戶畫像等,進行優化和遷移,目前甚至還沒有統一的計算架構來解決。梁家恩表示,這些技術挑戰和困難,實際上並非雲知聲一家所要解決的問題,而是整個行業都在面臨的挑戰。

其次,在智能晶元領域,雲知聲在去年五月推出的首款面向物聯網的AI芯雨燕基礎之上,今年還將進一步擴張其多模態AI晶元戰略與規劃。

具體來說,雲知聲今年將會發布第二代物聯網語音AI晶元蜂鳥、面向智慧城市的支持圖像與語音計算的多模態AI晶元海豚(Dolphin),以及面向智慧出行的車規級多模態AI晶元雪豹(Leopard),並計劃分別於二季度及三四季度量產。

以AIoT晶元為基礎,雲知聲為行業合作夥伴提供開源的「端」方案,進一步降低行業應用拓展的成本。在當前,「雲端芯」一體化已經成為行業大趨勢,產品化能力也成為行業共識,雲知聲雖然還有進步空間,但是依然走在行業前列。

最後,在行業應用方面,梁家恩認為,來自AI產品形態和商業模式演進的不確定性,會成為重要挑戰。正如移動互聯網,不是簡單的將PC應用縮小放到手機中一樣,AIoT的應用和服務形態,肯定不是簡單的AI+IoT形式,而是需要建立AI思維(ThinkinginAI),根據AI特點重構應用與服務形態,才是真正的AI應用與服務,而目前整個行業來說,並沒有標準答案,Amazon Echo為代表的智能音箱,也只是一種嘗試。

在雲知聲看來,AI應用與服務,可能不是一個簡單的獨立應用,需要比互聯網更深入的結合行業,才能引發產業變革。因此,雲知聲在家居、車載和醫療領域,分別與世茂集團、吉利億咖通、平安好醫生達成深度合作,成立合資公司,積極探索AI技術和方案與行業應用的深度融合。

對於AIoT的未來,梁家恩認為,這是互聯網的下半場,除了AI技術,5G和IoT技術本身的發展,都是主要的助推力量。在「智能交互」和「應用服務」問題解決後,將實現線上服務與線下產業的打通,真正的產業變革將到來。技術驅動的產業變革,路徑會比應用和模式驅動來得長,但爆發力也更強大,正是由於整個路徑上問題挑戰仍然很多,技術型創業公司在巨頭面前才有機會。


結語:產業AI,何以決勝?

AI經過60多年發展,現在迎來了第三次浪潮。在過去兩次浪潮中,由於產業落地相距甚遠而衰落,2016年Alpha Go掀起的第三次AI熱潮,今天看來也有漸退的跡象,整個行業也開始理性思考AI的前途在哪裡?概念、刷榜和炫技,早已經不能趕上實際的行業應用需求,一切都以能產業規模化落地為硬道理,決定AI產業變革的成敗,和眾多AI企業的命運。

今天,越來越多的AI公司,已經意識到ToB市場的重要性,「雲端芯」一體化、重視產業落地,也逐漸成為AIoT行業共識。站在AI大規模落地的產業節點上,技術從單純的學術AI走向產業AI也是大勢所趨。在這種大趨勢之下,面對密布賽道中的一干巨頭和創業公司,如何能勝出,是雲知聲需要回答的問題。

對此,梁家恩的回答是,產業變革時代,沒有捷徑可走,比拼的是解決產業需求和技術問題的能力,本質上就是人才和團隊的實力比拼。

對雲知聲來而言,技術和應用方面的積累和實力,以及高效迭代演進效率,只是外界看得到的結果;對企業而言,支撐持續發展的是戰略和組織能力,即前瞻技術和產業規劃,以及高效的技術和產品研發組織體系,這是雲知聲持續高速發展的推動力。

梁家恩認為,AI行業發展迅速,技術和應用的領先都是時間差,需要將時間差轉化為用戶、數據、品牌和模式的優勢,才能建立真正的商業壁壘。戰略規劃和執行決心,造就了雲知聲今天在AIoT的先發優勢,而靈活高效的技術研發組織體系,則為後續長跑提供了重要支撐。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

CITE2019:你想看的柔性屏、IoT與晶元,全在這裡了
OPPO公布Reno系列首款新機:潛望鏡頭10倍光變,真香!

TAG:智東西 |