讓一群腦洞清奇的開發者告訴你，AI＋產業的N種可能

科技 07-08

那麼下個階段，AI還能拼什麼？答案或許是，開發者的想像力。

一般來看，一場成功的、勝利的AI行業大會，往往是這樣的：主持人大談AI技術是多麼神奇、智能轉型多麼重要、產業價值多麼龐大。然後一群專家（最好有外國人，配上同聲傳譯）相互討論，取代人類、奇點臨近、智能時代、技術倫理等等暢談一番，台下觀眾不明覺厲地送出掌聲，然後各個AI企業上台，以一波跑分、廣告結束了此次大會。

不知大家發現沒有，在每一個這樣規模龐大、議題恢弘的行業大會中，那些真正信賴AI、運用AI的開發者們，似乎總是面目模糊，只能作為「人肉鼓掌機」出現在圖片一角。

那些秒殺人類的AI究竟是怎麼發明出來的？轉型AI，企業和開發者需要做好哪些準備？AI應用還有哪些新的可能性？

顯而易見，想要真正讓大眾和無數企業、技術人員去了解、信任和觸碰AI，上述問題才是關鍵。

所以，我們在以AI開發者為主角的「百度AI開發者大會」現場，抓住了幾個AI項目的負責人，來嘗試還原一下這波「探路者」的日常，以及他們給AI世界帶來的無數奇思妙想。

「生物記」，用AI認識萬千生命

AI開發者都是群什麼人？相信大多數人腦海中會立刻閃出一些畫面：在科技公司高大上辦公樓里遊走的潮酷極客；面前擺放著八塊顯示屏的超級宅男；亦或是像鋼鐵俠一樣揮舞幾下就造出個機器人來回跑。

實際上，AI近幾年的快速發展，以及眾多演算法的模塊化，已經使得深度學習方法得到了特別廣泛的應用，開發者群體也格外豐富多樣。比如我們遇到的第一位AI開發者，就是來自中國科學院動物研究所的生物學家。

該團隊研發的產品，是一個名為「生物記」的人工智慧平台，能夠自動識別出圖像中的動植物。

之所以有此創意，源於研究者林聰田的切身工作體會。在他看來，大數據時代，生物多樣性研究的難題主要來自三個方面：

大量的生物數據積累還只能依靠人工來收集和分類，常常需要背著長焦相機行走在深山野外，小心翼翼地拍攝和分辨野生動植物，再對照資料逐一記錄。工作辛苦不說，效率也難以滿足科研需求；第二個問題是，具備專業知識的分類學專家越來越少，大量生物標本、照片等研究材料的難以得到專業鑒定，影響數據標註的準確性和可靠性，最終會影響研究的結果；另外，公民科學逐步興起，大眾對動植物的興趣卻與日俱增，不僅學生們需要科普教育，大人們也很愛湊熱鬧，遇到稀奇古怪的生物就上社交網路求專家鑒定，還捧紅了「博物君」「水族館男」等不少網紅。通過公民科學產生的大量數據也被應用於科學研究，迫切需要能夠自動識別生物的公共平台，保證公民科學數據的可用性。

在這種大環境下，一直關注技術進展的林聰田，在2017年開始通過百度大腦開放平台，將定製化訓練和服務平台EasyDL，引入到了生態學研究當中。

目前，已經能識別鳥類、蝴蝶等生物類群。尤其是在鳥類識別上，「生物記」的top5準確率可以達到95%以上，能夠識別一千二百多種鳥類。

專業的研究員們，野外作業時帶上「生物記」，直接拍攝記錄就能夠完成野外觀測工作，不需要再繁瑣地手動記錄各種信息。而普通的個人愛好者也可以隨時隨地上傳自己拍攝到的神奇物種，獲取相關知識。值得一提的是，「生物記」會給出物種匹配程度，還能直接在線向專業的生物學家求助。

人類認識自然的方式，正在變得「智慧」起來。AI讓生命更美好，或許正是如此。

從2D到3D，人臉識別的還有哪些可能？

提到計算機視覺，可能大部分人最為熟悉高頻的應用，都集中在拍照購物、一鍵搜圖、刷臉支付等領域。這也可以說是受深度學習光環加持最為顯著的AI能力之一。

那麼，已經如此普及的成熟場景中，還能掀出什麼水花嗎？開發者們的創造力並沒有讓我們失望。在大會現場，我們就邂逅了一個來自以色列的AI開發者。

來自以色列的MANTIS VISION，是一家在3D結構光技術上鑽研了14年的科技企業。2018年9月進入中國市場以後，MV的子公司螳螂慧視很快與百度大腦一碰即合，共同開啟了3D視覺的AI演算法研究。

很多朋友可能會好奇，3D視覺對我們有何意義？簡單來說，過去的人臉識別都是在2D基礎上完成的演算法在平面彩色圖像上基於生物特徵的提取實現個體的區分，比如提取眉毛高度、嘴角等，再通過特徵對比返回結果。

說實話容易導致兩個問題：一是別人拿你的一張照片或者面具就能輕易騙過演算法，造成安全隱患；二是精準度低，一旦對方整了容，或是突然變胖變瘦了，亦或是系統中的照片受到角度、光線的影響，都會造成對比準確率下降。

而高精度3D結構光數據的引入，有可能帶來哪些驚喜呢？

首先，數據維度里增加了位置向量，能夠更精準地識別人臉的立體特徵。因此，在一些光線比較暗，或是安防係數比較高的地方，3D人臉識別的表現將帶來前所未有的驚喜！

另一個可能帶來的變革，大概率將出現在VR/AR領域。眾所周知，這兩大交互技術長期受限於內容生產的匱乏。而3D數據與AI演算法的結合，將直接改變三維內容的生產模式。來自MV的工程師為我們展示了他們的AR動態人像，逼真的畫風和實時交互，在智能演算法的處理下，只需要不到半個小時就能處理完畢並上線。

毫無疑問，在越來越AI的機場、高鐵、零售等人場景中，3D演算法的出現將會徹底顛覆我們對人臉識別的最初想像。

當語音無法哄騙AI，聲音才能真正展開羽翼

基於語音識別的各種語音助手、商業應用，也在悄然描畫著智慧生活的未來。在去年的百度AI開發者大會中，我們就見到了百度CTO王海峰跟小度「講RAP」的「極限操作」。可以說，聽覺方面的技術突破，這兩年大傢伙兒都沒少見。

不過，今年我們看到了AI給語音的另一種賦能：防錄音攻擊。

我們知道，聲音之所以能夠在門禁、銀行、公安等領域中成為判定人身份的重要依據，就在於說話人聲紋的不同。

在車載語音系統中，也可以通過聲紋識別來判定車內不同乘客的身份，提供個性化的服務。萬一別人將你的聲音錄下來播放給汽車聽，豈不是可以「為所欲為」了？聲音的合成處理也能達到以假亂真的效果，比如百度AI客服給大量開發者打電話，很多人一開始壓根沒有發現對面居然是個AI。

顯然，如果不具備防攻擊能力，單純的聲紋識別仍難以打消大家的安全顧慮。不過魔道總是此消彼長，今年，一個能夠讓系統不被錄音/模擬音騙到的應用就向我們展示出了神奇的療效。

得意音通的技術團隊，在百度深度學習開發平台飛槳上，開發出一個性能很強悍的防錄音攻擊功能。當用戶說出對應的字元時，系統會自動識別並通過，這沒有什麼稀奇的。神奇之處在於，當用戶錄下通關密令，再給系統播放時，它會立馬判斷出這不是本人親口說的，並直接對通關請求say NO！

據開發人員透露，該技術在國際自動說話人識別欺騙攻擊與防禦對策挑戰賽（ASVspoof 2019）中，獲得了全球第一的成績。在中國建設銀行手機銀行的數億次驗證中，能做到「零事故」和「零投訴」通過。

這個創意聽起來只是一個小小的功能點創新，卻在這個AI狂飆突破的關鍵時期，提醒了我們，讓AI會說話、說好話是不夠的，懂得拒絕的AI挑戰更大，也更值得人類信賴。

從港口到養雞場：AI也可以很硬核

說了這麼多與現實生活息息相關的AI創新，是時候來點「硬菜」了。

其實，企業的生產更離不開視覺技術的輔助。比如攝像頭監控到工業生產流程，如何識別這些特殊場景的內容就成了難題。

舉個例子，港口裝配的攝像頭偶爾才能捕捉到為數不多的幾個人像，在若干遮擋物的干擾下，可能根本無法識別出特殊人員的出現。如果機器不能及時預警，監控員很可能就會忽略掉，所謂的安保也就成了漏洞百出的「篩子」。

再比如，運用計算機視覺演算法來識別火災等災害的特徵，難以「防患於未然」。當攝像頭監測到大量煙霧的時候，很可能災情已經難以控制了。只有在煙霧剛剛似有若無的時候就發現它，AI才有可能真正發揮價值。

大家可能已經發現了，工業場景對AI的要求經常是「巧婦要為無米之炊」。需要在數據匱乏的情況下，起到技術支撐體的作用，成為人類操作員的「最佳輔助」。這可能嗎？

我們與開發者們聊了聊，發現這樣的「送水人」還是真實存在的，米文動力就是其中的一個。

有過AI開發經驗的朋友會知道，場景定製化的AI功能開發，往往需要有適合自己開發任務的主板。沒有強健的體魄支撐，再聰慧的大腦也帶不動啊。而米文動力所做的是，就是在「飛槳」等深度學習開發框架上，定向開發出多種離線深度學習演算法，加上英偉達的GPU硬體，打造出適合工業場景的計算平台。

一方面，針對工業場景中數據稀疏的問題，進行了針對性的演算法開發。比如針對我們前面提到的火焰煙霧的及時識別，米文一方面四處「點火」，主動創造訓練數據；另一方面則通過運動檢測來增強數據，把深度學習無法正常工作的場景中的數據進行擴容，從而讓系統能夠進一步分析和訓練演算法。

另外，結合工業場景數據採集難、終端實時計算的特殊需求，打造了邊緣計算雲端的計算平台。像是在輪船、吊車等一系列大型工業設施上，米文對硬體部分做了針對性調整，讓視覺終端可以在高溫高濕有震感的環境下長時間工作；軟體部分則藉助GPU的強大算力，遠程完成模型更新與數據獲取，降低了工作人員到現場取數據的頻率。

這一系列工作的最終目的，都是讓AI能夠真正變成人類操作員的「眼睛」，從高強度、高風險作業中解放出來。

看到這裡，是不是很驚嘆於開發者們的創造力？普通人眼裡一樣的「AI」倆字（母），在他們手中卻能變幻出這麼多奇思妙想。

除了上述幾個代表型創新，我們在百度AI開發者大會現場，還看到了幫助京東方植物工廠育苗的AI，浦發銀行的首位AI員工，以及幫助基層醫生看CT的AI……

在這些創造力的迸發背後，或許可以探討這樣一個問題：過去，我們總覺得AI距離普通人很遠，那些真實可用療效好的AI，到底去哪兒領？

也許最核心的關鍵詞應該是——AI開發者。

他們帶給AI的並不僅僅是一兩個爆款應用，隨著AI的持續深化，開始指向更為複雜精細的行業需求，能夠連接原始產業與AI能力的角色，唯有這些胸有丘壑的開發者才能觸達。

AI開發的難與不難

浮在實驗室與測試數據中的AI技術急於走向台前，國家和產業對實用化AI的需求同樣也十分迫切。你是不是也蠢蠢欲動，想要在AI江湖中一展身手？別急，我們也在現場幫大家向上面的優秀「課代表」們取了取經——想要打造一個致用型AI，需要具備哪些前提？

1.放棄將AI「神化」的幻想。

用開發者的話來說，AI開發真正注意的東西，都是跟AI開發無關的一些東西。比如一個基本的常識，AI技術只是一個個螺絲刀、老虎鉗這樣的工具，最後如何解決問題，應該用這個老虎鉗還是一個螺絲刀就能搞定，這種對產業問題的基礎判斷能力，找到AI技術適用的場景和方式，才是開發者應該具備的特質。

2.有多少人工，就有多少智能。

找對了工具（演算法），也不意味著能夠立竿見影地解決問題。「有多少人工，就有多少智能」，看似是一句笑談，也是AI世界裡的樸素真理。

採訪中，就有兩個細節特別打動我。

MV的開發者分享了一個自己的親身經歷，高精度3D結構光的數據量相比2D是幾何倍數的增加，即使做了成像壓縮，一塊1T的硬碟也可能裝不了兩個人的人臉數據。為了保證演算法訓練的數據量，往往是在丰台的辦公室採集完了之後，由開發者自己拿一個啤酒架一樣的架子，裝滿硬碟給百度大腦的技術人員送過去，常常需要往返數十趟。就是在這樣的人力工作之下，才誕生了3D人臉識別演算法的雛形。

米文未來的延誤識別演算法，也是在這樣不辭辛苦的人工干預下完成的。在不同光線、時間、背景，室內、室外等各種環境條件下，米文的開發者大概花費了幾百個小時「點燈放火」，才積累到了幾十萬張數據，完成了演算法的訓練。

所以說，AI開發中要面對的真實問題往往比預期和實驗室中複雜很多，運用一切辦法、動用一切力量去解決問題，這是一條不好走的路，但這才是一個AI開發者的自我修養。

3.不輕技術，更不輕應用。

在AI狂飆突進的過程中，很多開發者把AI演算法本身看的很重，日常沉迷跑分與論文。這樣做低估了AI產業化的難度，也低估了產業端的價值。很多時候，技術在真實的產業場景里可能會缺位。比如生物識別、火焰識別等等，這可能是科學家們一般不會思考的問題，卻是切實存在、富有價值的產業需求。

在採訪中，來自中科院的王聰田這樣理解自己的定位——應用的人如果掉進技術的坑裡，可能就跑不出來了，可以利用百度EsayDL這種人家已經訓練好的簡單易用的模型，不要深挖技術上的東西。

同樣想法的還有很多，例如視派爾科技，作為數字圖像處理的技術方案服務商，視派爾的開發者也強調，自己的重點在打磨體驗和場景，做好AI所需要的前端圖像處理外，還要做更貼合市場的定製化服務，至於平台化的SDK等軟體層就就依靠百度這樣的合作夥伴。在和百度大腦的合作過程中們也體會到和看到了這一商業模式的潛力。

畢竟，深入應用場景的產品及深度定製化的創新要比重新造輪子緊迫得多，產業化才是讓AI普惠更快被大眾感知和享有的關鍵。

總而言之，對AI「致用」的合理認知，才是一切想像力與奇妙故事的起點。

結束語

賦予智能手機價值的，是靠無數移動開發者的奇思妙想所支撐起來的應用生態。但到了AI時代，我們總在強調AI「三劍客」——算力、數據、演算法。這三大門檻，似乎一直束縛著開發者的思想，無法撬動AI真實的產業價值。

可喜的是，我們逐漸看到，算力在變得廉價、數據資源日漸充沛，演算法能力正在被百度等以簡單易用的形式「擺渡」給開發者。

那麼下個階段，AI還能拼什麼？答案或許是，開發者的想像力。

當AI開發者們能夠從現實中汲取靈感，知道並且擁有工具去實現它們的時候，技術的寶庫或許才會真正開啟。也唯有如此，AI才不會變成另一個「吹泡泡」遊戲。

我們也無比期待著生機盎然的「萬眾創新」那一天早日到來。

來源：腦極體

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 砍柴網 的精彩文章:

※垃圾分類背後的千億級產業鏈
※蔚來汽車之殤：連續自燃、股價腰斬、市值暴跌！

TAG:砍柴網 |