當前位置:
首頁 > 科技 > 雲測數據:沒有好的數據,人工智慧沒有未來

雲測數據:沒有好的數據,人工智慧沒有未來

【獵雲網(微信:ilieyun)北京】12月10日報道(文/奇點)

12月10日,2019年度CEO峰會暨獵雲網創投頒獎盛典在北京望京凱悅酒店隆重舉行,近百位知名資本大咖,獨角獸創始人、創業風雲人物及近千位投資人與創業者共聚「新勢力·2019年度CEO峰會暨獵雲網創投頒獎盛典」。

峰會上,Testin雲測CTO陳冠誠以《場景數據成為人工智慧產業突圍關鍵》為主題分享了自己的觀點。AI迅速爆發的背後究竟誰是推手?現下眾多巨頭企業、初創公司等紛紛入局人工智慧領域,都在嘗試尋找全新突破口。業內曾流傳著這樣一句話:得「數據」者,得「人工智慧」,而能將「人工智慧」玩的轉的,便能稱的上是翹動世界第四次工業革命的先鋒了。

基於此,Testin雲測直擊行業痛點,旗下AI數據服務品牌「雲測數據」將「精準高質」「獨立安全」作為業務發展的核心並不斷隨AI企業數據需求不斷的演進。Testin雲測CTO陳冠誠重點提出了目前AI企業對定製化數據服務的迫切需求,同時也指出:當下,人工智慧正加速往應用人工智慧方向發展,在演算法、算力沒有重大突破的前提下,質量高和安全性強的數據成為人工智慧商業化落地的關鍵點。

人工智慧技術的背後有三大支柱:演算法、算力和數據,這三者相輔相成、相互制約,其中數據是核心生產資料,只要有了大量優質的數據,再加上演算法實現高效的機器運算、算力的推動,AI才能越走越遠。沒有數據,再多的算力和模型上的投入,也不能讓AI實現落地。

雲測數據通過自建基於不同場景的獨特數據場景實驗室、開展定製化數據採集,同時自建數據標註基地的多道標審流程以確保輸出「高質精準」的數據。直擊特定場景化下的數據缺失、質量良莠不齊、數據隱私安全性等行業問題,以幫助AI企業打造以高精度數據為核心的行業壁壘。

此次為了幫助創業者和投資人重新蓄力,2019年,獵雲網攜全新品牌「新勢力(New Force Summit)」亮相。本次峰會由獵雲網主辦,銳視角、獵雲資本、獵雲財經、企業管家協辦。

此次盛典上,獵雲網將通過六個版塊分享創業者和投資人在智能製造、文娛、零售、醫療、教育、汽車等領域的啟發性的觀點和行業前瞻,圍繞多個維度,分享科技和產業前沿觀點,探討創新潮流趨勢、把握未來新方向。

以下為陳冠誠演講實錄,獵雲網整理刪改:

大家下午好!我是來自Testin雲測的陳冠誠,非常榮幸跟大家分享關於AI話題。

目前AI應用在行業當中掀起了非常高的浪潮,若我們把AI應用比作成一個學生,那麼這些學生的老師就是實現AI應用的演算法工程師。但是光靠老師、學生是不夠的,他們還需要高質量的教材,而數據就是老師、學生們所使用的教材,我今天跟大家分享的就是教材生產背後的故事:場景數據是人工智慧產業突圍的關鍵。

Testin雲測成立於2011年,為全球超過百萬的企業及開發者提供雲測試服務、AI數據標註服務、安全服務及推廣服務。截止到目前為止,雲測數據的數據標註業務已發展超一千人,為智能駕駛、智慧城市、智能家居、智慧金融等領域提供定製化的AI數據服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理。目前我們在華北、華東、華南都有數據交付中心,很榮幸服務了眾多AI相關的企業。

AI三要素:相互制約、相互促進

在我們服務的眾多企業中共分為三大類型:第一類是科技巨頭,覆蓋的場景廣,伴有多種品類的人工智慧需求。第二類是新興的人工智慧企業,包含智能駕駛、視覺、語音等相關公司。第三類就是行業巨頭,它們會利用AI來對整個行業進行產品升級。

其實大家都了解AI在社會變革中的影響,若從技術角度來看,AI最大的改善是將把人從重複性的工作中解放出來,不輪是工業製造的重複性勞動,還是像醫療問診的重複性勞動,亦或者是智能駕駛中的重複性勞動。一旦通過AI技術將人從繁複的工作中解放出來時,人們便能更好的投入到許多創造性的勞動中。

比如在醫療環節中,如果問診機器人可以更成熟化的落地,那麼未來醫療人員、醫護人員可以將很多精力從重複性的問診工作中釋放出來,他們會有更多時間關心病人精神、心理的相關活動,這是我們認為AI對行業的影響。

眾所周知人工智慧應用有三要素:演算法、算力、數據。在這裡我給大家舉個簡單的例子說明這個問題:以OCR文字識別引擎為例,文字識別是非常典型的AI應用,其也受約於演算法、算力、數據,起初想做印刷數據,演算法模型要想將印刷字體識別好需要的CPU、GPU,再用算力將印刷字體跑起來就可以了。

當做完印刷字體的文字識別之後,因為業務發展的需求可能還想加上對自然場景文字的識別,那就要獲取更多自然場景的文字數據。另外整個演算法模型需要更新換代,不僅是印刷字體的識別、自然場景的文字識別,還會有更多的需求提出。這樣模型能力升級了,算力需求也跟著升級了。這是這三要素相互制約,也相互促進的迭代過程的一個簡單例子。

定製化場景:新興數據的產生

談到AI數據服務發展的簡史,我們認為可歸納為五個階段:1、互聯網沉積數據階段 2、通用型數據產品 3、眾包數據服務 4、定製化數據服務 5、用戶數據沉積,這也是AI產品從項目立項、驗證、研發、落地、推廣使用的生命全周期數據。

擴展來說,最早隨著互聯網的發展,誕生了大量用戶的數據,比如用戶上傳的頭像、發表的評論等數據。很多公司最典型的做法是用公開數據集、爬蟲獲取互聯網上的人臉數據來訓練一個模型。

但是緊接著發現一個問題,如果只是訓練一個精度較低的人臉識別模型,這些通用數據是可以滿足,但卻沒辦法在垂直領域進行人臉識別的應用,不能實現商用。

同一個自然人,如果沒有多個角度的照片做數據的話,整個模型是訓練不出來的。這個時候發現需要用一些新的方法才能夠採集到單用戶多角度的照片,於是眾包數據的方式產生了。

在眾包平台上發布一個懸賞的任務,感興趣的用戶接受懸賞任務,授權給自己採取的多個角度的照片,如此可以把人臉識別模型做的更好。但隨著數據需求的提升,眾包方式採集的數據可能就滿足不了演算法的精度需求。演算法可能需要更高精度的數據進行訓練,比如2000萬攝像頭拍出來的照片,同時對照片拍攝的角度和光線都可能有特定的需求。這個時候便產生了定製化的數據服務需求。這也是我們AI數據服務的優勢領域所在。

通過使用定製化數據服務,企業可以將自己演算法的識別精度推到一個新的高度,進而落地成為產品被用戶使用,而沉澱的用戶數據以及用戶在分享過程中逐漸產生的更多互聯網數據,則會讓整個資料庫演變成大數據生態。

定製化數據:多模態、多場景、高精度

定製化設備和場景化數據,不僅考慮到新維度數據採集硬體差異化凸顯的現狀,還可以規避單一維度數據對演算法上升成本增加的負面影響,同時也能發揮新維度數據融合加速落地場景的優勢。通過定製的方式,可以獲得實際場景所需的數據,反之,如果沒有這樣的數據,相關企業在具體場景中會很難工作。

這涉及到人工智慧的公平性問題,要求產品要能被所有用戶使用——膚色、方言、年齡的多樣性都要納入考慮範圍。以機器人聽懂人說話的這一需求為例,要求產品不僅要能夠識別小孩的聲音,同時也要能識別老人的聲音,因此需要對相應的不同樣本進行數據採集標註。這樣一個複雜的工作過程,對人工智慧企業服務人員的協同性提出了極大挑戰。

這些需求會促使所有的AI數據服務提供方,必須至少具備三種能力:對場景深度的還原能力、作業協同化能力、專業化能力。

對於場景還原能力,首先體現在對用戶真正的需求是否能夠做到很好的拆解,甚至是預判,但僅僅是預判出來怎麼做還是不夠的,可以提前給更多的需求建議,應該怎樣做、怎麼復現場景才能保證演算法順利落地。這都是考驗場景還原能力。

作業協同化,在生產製造中,其內部有幾十個流程串聯起來,像質檢、抽檢等等,而且參與人員非常多,那麼生產流水線如何更好的把控時間節點,怎麼進行上下游產業鏈工作環境的銜接,怎樣提高工作效率,這將是非常重要的一點。

領域專業化上可以舉個例子,在醫療領域做X光片病理診斷中,大多數情況下標註人員不是隨便找一個普通人員就可以做,標註人員需要非常專業,甚至是副主任醫師專業以上的,才能對病理的片子進行正確的數據標註與解讀。類似的事情在各個領域中也多有發生,AI在各種各樣垂直領域進行落地,比如說教育、法律、智能駕駛,都有細分專業化的要求。

以上講的不僅僅是一個行業的發展趨勢,對於任何一個想要開始啟動AI的研發企業來講,為了解決自己的AI產品的數據需求,通常企業自身也會經歷過這幾個階段。不管是從第幾個階段開始,最後都會落在定製化數據這個階段上。雲測數據為了更好滿足定製化數據的需求,我們做了幾件事情:

第一有專業搭建場景的實驗室,第二我們在華北、華東、華北都有數據標註的基地進行相應的交付。還有一塊我們有專業的、擁有自主知識產權的採集系統、標註系統,其中重要的是有全程項目經理跟蹤數據交付的流程,保證最後交付的質量。

最重要的一點,我們一直將數據隱私、數據安全作為業務開展的首要地位。

第一,不濫用數據,數據交付後清毀數據不留底,絕不二次使用;

第二,不侵犯隱私,與所有數據採集的用戶都簽訂數據授權協議,包括歐盟非常嚴格的GDPR協議我們會做支持,確保AI企業用於訓練的數據合法合規;

第三,建立相關的數據保障機制,如從防火牆的設置、內部信息系統的管護、乃至標準化的流程作業體系等。

我們目前支持智慧城市、智慧金融、智能駕駛、智能家居等領域。今天隨著AI在各個行業的落地及定製化數據產品的需求,這應該是未來最重要的趨勢之一。這是我今天的分享,希望對大家有所幫助。謝謝大家!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 獵雲網 的精彩文章:

首次債權人大會35人參與,賈躍亭:債務重組將決定FF生死
社交戰事2019:巨頭不斷出手,浪花為何不大?