當前位置:
首頁 > 新聞 > 月訂單千萬元,這家人工智慧產業供應商的新玩法

月訂單千萬元,這家人工智慧產業供應商的新玩法

人工智慧,這個詞放在今天來說已經變成了一個熱門辭彙。自 2015 年人工智慧商業化的大浪潮以來,越多越多的企業需要人工智慧技術來賦能於傳統業務,其中最典型的就是自動駕駛、人臉識別等等。

但是人工智慧並沒有想像中那麼好開發,其演算法是一方面,更重要的是所有人工智慧都需要一個特定的訓練平台,來對其進行訓練以及評價。通過不斷重複這個循環,人工智慧才能得以實現各種各樣的功能。而驅動訓練平台的,則是數據。

世界經濟論壇 2012 年的報告中,數據被稱作是世界的新財富,價值堪比石油。麥肯錫諮詢報告認為,數據是一種生產資料,大數據是下一個創新、競爭、生產力提高的前沿。這些大數據的生產者,也就因此冠上了「人工智慧原料供應商」的名號。

今天的主角正是這麼一家供應商,龍貓數據。

龍貓數據是一家怎樣的公司?

和往常的採訪不同,DT 君是在周六的上午來到龍貓數據。根據該企業創始人昝智的說法,龍貓數據採用雙周休的工作制度,即單周周六正常上班,雙周周末休息。

龍貓數據的業務可以被分為兩層,對企業的業務為數據提供服務。顧名思義,該企業是為擁有人工智慧訓練平台的企業提供訓練用的數據。這項業務一共分為四大類:圖片類、視頻類、文本類、語音類。也就意味著,現在大多數人工智慧相關的企業都能成為其客戶。

雖然說向企業出售數據是龍貓數據的主要營業手段,但是昝智告訴 DT 君,對於龍貓數據,還有一項業務更為重要,那就是採集數據的過程。

採集數據可以被理解為挖掘石油,石油公司的主營業務是將石油銷售給其他企業,可是石油公司的中心並不是怎麼銷售石油,而是怎麼才能以更低廉的價位挖掘更好的石油。龍貓數據也是一樣的,該企業在數據挖掘方面採用了一種眾包平台的方式。

眾包平台又分為兩個層面:採集和標註。在採集方面,龍貓數據在接到客戶遞交的任務以後,會向該企業的 APP 分發這些任務,比如照片、錄音等等。用戶完成任務以後都會得到獎勵,並且根據任務難度的不同會獎勵數量不等的現金(存於網路賬戶)。

「我們將用戶傳上來的這些稱為原始素材,」昝智向 DT 君說到,「但是這些素材並不能用來訓練,還需要標註以及審核。」所謂標註是指,通過人工的手段對原始素材上的特徵點進行施加機器可以理解的信息素,以此來讓人工智慧通過這些特徵訓練。

以龍貓數據的人臉照片素材為例,圖上有密密麻麻的點,而每一個點都有其特徵含義,如內眼角、外眼角等。眾包平台的人員需要把這些特徵點在圖中標記出來,才算是一份龍貓數據所需要的素材。

然而通常人臉識別需要的訓練素材,少則 160 個點,多則數百個點,通過人工的手段估計連想要正確且完整地標記一整張圖是非常困難的。根據昝智的描述,龍貓數據在眾包平台的數據採集階段採用了一種自研的人工智慧預處理技術,即當用戶上傳原始素材至龍貓眾包平台後,人工智慧會直接在後端開始預處理,提前標記好任務所需要的特徵點。當素材進入人工標記階段時,操作人員只需要輕微地挪動一些不合理的點即可完成任務。

這種預處理又分為很多種類。仍以人臉識別為例,龍貓數據準備了多種特徵標註方法,如 186 個點,216 個點等等,這些標註方式比較常見,可以直接套用給大多數人臉識別訓練平台。而另外一些不常見的標註方式,龍貓數據選擇和客戶企業共同開發預處理方式。昝智認為,客戶既然從事這方面的訓練,那麼他們對這些數據的需求一定有獨到之處,所以共同開發才是最合理而且最節省成本的事情。從龍貓數據現有的預處理技術來看,該企業專長是計算機視覺相關以及音頻相關的預處理技術,服務於自動駕駛、圖像識別、聲音識別等行業。

當然,凡是眾包平台都會遇見這樣的問題,操作人員並不是真正意義上的隸屬於企業,這其中難免魚龍混雜。尤其是數據採集,這樣的環境會給數據清洗環節造成極大的困擾。龍貓數據則對其眾包平台人員採用了一種多層次的審查機制。

首先是考核,操作人員需要通過練習題才能「就業上崗」。不過就算是上崗了,操作人員也不能混日子。龍貓數據會在數據標註階段不定期地發放陷阱題,即龍貓數據已經知道答案,如果操作人員沒有正確地像答案一樣標註數據,那麼他們就會被系統警告,最後會被剝奪操作資格。

同時,在標註過程中,系統也會檢查操作人員的標註速度、操作記錄等等。這是為了防止出現機器人刷任務和其他的違規操作。目前為止,龍貓眾包平台的用戶超過了 400 萬,月訂單金額達到了千萬元的級別。

不過這還沒完,當原始素材被標註以及審核完後,它會被上傳至雲端。目前龍貓數據將原始素材以及遞交給客戶的素材存在了兩個不同企業的雲端存儲上,昝智解釋這是為了保護數據的安全以及客戶的隱私。

誰組成了龍貓數據?

龍貓數據的盈利思路非常清晰,昝智則表示,這是一家科技企業應該做到的。事實上龍貓數據最早並不是做大數據採集的。在種子輪階段,龍貓數據的業務是交通卡與手機的移動支付,通過 NFC 功能,用戶可以直接通過手機往交通卡里充錢,也可以將交通卡里的錢轉給手機。這項業務在 2014 年叫做「閃電刷」,隨後微信支付和支付寶迅速崛起後,昝智意識到了閃電刷很難在這兩座大山前面崛起,於是果斷轉型,至此才有了龍貓數據。

昝智擔任百度廣告系統產品經理,但是他並不喜歡這份工作,於是他跳槽去了豌豆莢。來到新公司後,昝智第一件負責的事情就是豌豆莢的廣告系統,鑒於在百度任職時間過短,廣告系統對於他來說仍然是從零開始。

在廣告系統做了一年多的業務以後,昝智被調去了豌豆莢的遊戲聯運,他告訴 DT 君,他很喜歡這種從零到一的過程。也正是在豌豆莢的就職過程中,昝智結識了姚毅,也就是現在龍貓數據的 CTO。

姚毅曾經是谷歌的工程師,後來跟著李開復去了創新工場。姚毅很信任昝智的戰略眼光,即使龍貓數據發生了天翻地覆的業務調整,姚毅也選擇推翻原有的技術重新開發。

龍貓數據目前的總人數為 68 人,技術團隊佔比最高,將近 30 個人。剩下的人員分別是 20 多個平台運營人員以及僅有的幾個銷售人員。昝智告訴 DT 君,「我們也期望有很多銷售人員,但是我們的銷售要求比較高。龍貓數據主要對接的是客戶的研發團隊,因為他們有直接的數據需求,也就是說銷售人員必須很懂這個行業才行。」

截止至 2018 年,龍貓數據已經將業務銷售給了百度、騰訊、華為、快手、京東、三星這些巨頭型企業。昝智表示,龍貓數據給這些客戶都做過幾十項業務,有一些則做過上百個。

數據

上文提到,龍貓數據是一家提供人工智慧訓練數據的公司,並不是一家直接提供大數據的公司。雖然都有數據二字,不過這兩者卻是天壤之別。大數據講究「5 個大 V」,分別是數據規模大(Volume)、數據多樣性(Variety)、數據處理時效性(Velocity)、結果準確性(Veracity)、深度價值(Value)。

人工智慧的訓練數據要求是符合訓練平台的需求。仍然以人臉識別為例,在該領域的人工智慧訓練中,其訓練數據採集往往會要求 50% 的室內、50% 的室外、明亮環境 80%、普通環境 20%。但事實上,消費者真正用人臉識別喚醒機器的場景卻遠比訓練場景更為縱深複雜。

因此,要想了解龍貓數據的業務,應該了解這些人工智慧訓練平台到底需要怎樣的數據集才行。2014 年,Facebook 提出了 DeepFace,這是一種利用卷積神經網路和大規模人臉圖像進行人臉識別的技術,其在 LFW 上獲得了 97.35% 的精度,性能與人工識別不相上下;VGG 網路採取深層拓撲結構和較大的輸入圖像獲得了 98.95% 的精度;香港中文大學提出的 DeepId 網路對卷積神經網路做出了進一步改進,採用局部和全局特徵聯合,利用聯合貝葉斯處理卷積特徵以及利用識別和認證兩種監督信息進行訓練,將精度提升到了 99%;Google 的 FaceNet 採用三元組損失函數(Triplet Loss)作為監督信息,在 2015 年獲得了 99.63% 的精度。

以上這些精度超過人工識別的人臉識別技術都需要大量的訓練數據集支持才得以實現,具體數據量如下表。

圖丨各種人臉識別技術所需要的數據量對比

儘管 Lightened CNN 採用了一種新的激活函數,即 MFM 函數,並且其網路結構也很小,但是仍需要 45 萬的數據量才能夠完成訓練。使用中心損失函數(Center Loss)的 Caffe-face 也是同理。這些「小巧」是對於其他訓練平台而言的,對於人類,這仍然是天文數字。

這張圖其實並不能完全體現出人臉識別訓練數據集的需求量,如果結合下一張看,你就會了解到這個行業是多麼需要訓練數據的支持了。

圖丨各種人臉識別技術需要的訓練圖片數量以及圖片人數

事實上在人工智慧訓練領域,人臉識別所需要的數據量遠遠不如其他種訓練方式。同樣處於計算機視覺的無人駕駛就是最好的例子,後者需要的訓練數據量可能是前者的數千倍,乃至數萬倍。

ECCV2016 的一篇文章提出了利用人工合成來完成大量訓練數據,Google 最近推出的 BEGAN,則是利用生成對抗網路來生成不同的任務。這是目前解決訓練數據量不足的方法之一,不過也正是由於這種方法的出現,才變相體現出了「人工智慧供應商」們嚴重的供不應求。

然而事實就是,人臉識別等技術是有生成對抗網路來支持了,無人駕駛、聲音識別等領域卻並不存在成熟的生成對抗網路技術,它們仍然需要巨大的訓練數據。其實目前的 GAN 也都停留在實驗階段,沒有真正拿出來投入商業化的。

根據鄭州市科學技術情報所的報告,截止至 2018 年,北京一共有 242 家人工智慧企業,上海有 112 家,深圳有 93 家,杭州有 36 家。此外,每家人工智慧都需要訓練數據,一些企業還需要複數種類的訓練數據。龍貓數據在這方面確實抓住了行業的痛點。從長遠來看,人工智慧應該會是一個能持續發展的領域,這也意味著龍貓數據存在與之相對應的長期持續盈利能力。

但是,龍貓數據的眾包形式和傳統的數據供應商,究竟孰強孰弱呢?傳統數據供應商的數據採集形式就是僱傭一大批人拿著數據採集設備進行人工採集,當原始素材上傳至企業雲端時,再調遣企業員工對數據進行標註。根據昝智的介紹,這種方法的成本比眾包平台要貴,而且採集周期比較長,畢竟要調動很多人,而龍貓數據的眾包形式可以允許企業在接到數據採集任務後,第二天就開始執行採集工作。

其實一些苦於訓練數據不足,又囊中羞澀的人工智慧公司,他們會選擇直接發動全公司的人去採集數據,而且這種行為在初創人工智慧公司中並不少見。對於龍貓數據來說,這些公司也是很好的目標客戶。

2017年12 月 14 日,工業和信息化部印發了《促進新一代人工智慧產業發展三年行動計劃( 2018-2020 年)》,其中提到 「構建行業訓練資源庫、標準測試及知識產權服務平台、智能化網路基礎設施、網路安全保障等產業公共支撐體系,完善人工智慧發展環境「 。目前,我國人工智慧發展的痛點問題之一就是缺少有效的行業資源訓練庫,業界普遍反映已經影響了人工智慧技術發展及在行業中的應用。上述提到的行業資源訓練褲即是龍貓數據所長期專註開發、服務的人工智慧數據採集與標註領域。昝智認為,人工智慧的發展離不開數據數量和質量的不斷提高,一方面是政策支持,另一方面是數據服務公司技術和資源的不斷投入,雙管齊下將形成有效引導,不斷完善產業發展環境。

不過有一說一,龍貓數據的眾包數據採集歸根結底還是模式創新,即需要技術團隊做支撐。這也就意味著龍貓數據需要更強技術的佔比,以此抬高行業門檻才能保持競爭力。而昝智表示,龍貓數據接下來要做的就是進一步擴張技術人員。

「用非脫敏數據,他的肯定不是用來訓練」

一般而言,人工智慧的訓練數據都是脫敏的,即不包含任何的個人隱私信息,就算是醫療領域人工智慧的訓練數據也不例外。這也是訓練數據和大數據的區別點之一。在大數據領域,尤其是大數據的應用層,有一種技術特點叫做「應用需求驅動特性」,這是指大數據處理應該結合行業應用的實際場景和需求。

那麼在大數據處理的過程中,就會碰到大量的個人隱私數據,比如出生年月日、身份證號等等。「用非脫敏的數據,那麼他的目的肯定不是想訓練人工智慧。」昝智告訴 DT 君,「我們不會和這種人合作的。」

昝智有自己的原則,龍貓數據也是一樣的。這也非脫敏數據的業務利潤實際上要比通常的訓練數據要高。為了平台的長遠考慮,昝智並沒有選擇這樣做。不過龍貓數據並不會挑客戶。「但是那些之前不結項目款的我們還是會慎重考慮!」昝智補充道。同時該企業也會和客戶去探討,這些數據對於客戶的訓練平台是否真的有意義。

上文提到,龍貓數據最初的業務叫做閃電刷,這項業務為其獲得了 300 萬元人民幣的天使輪融資以及 500 萬元的 Pre-A 輪融資。到了 2016 年,昝智把業務大規模調整後才有了現在的龍貓數據。根據該企業的融資消息來看,其在 2017 年年末完成了 3370 萬元的融資。

這筆融資被用來擴張團隊,從早期的 33 人團隊擴張至了今天的 68 人團隊。並且昝智表示,未來龍貓數據要建立自己的雲端存儲能力,對於客戶和自己來說,這樣做都是更安全的。

在數據採集領域,近年來共有 850 個創業項目,但是其中 43.18% 的相關企業是成立於 2012 年之前。而且在這些企業之中,未融資的企業佔了 47.4%,僅有 28.1% 的企業處於 A 輪之後。從龍貓數據的發展狀況來看,該企業目前正處於尋求融資階段,昝智的計劃是融到 1 億元左右,以支撐上述的企業發展。

這樣的融資規模對於數據採集行業來說,其實是比較常見的。2018 年 4 月以及 5 月,該領域出現了一個爆炸點,4 月共有 40 起融資,5 月為 46 起。這兩個月數據採集領域的融資總數,比 2017 年第四季度加上 2018 年第一季度總和還要多。2018 年 5 月的融資總額更是達到了 35 億元人民幣的高峰,沒有什麼能比這更提振該領域的從業人員了。

在 DT 君看來,造成這個局面的原因很可能是人工智慧領域快要到推出「革命性產品」的時間點了。自人工智慧概念被提起,這項一直處於人才缺口的技術事實上一直沒有拿出真正一錘定音的好產品,無論是消費者端還是企業端。

2018 年很可能迎來人工智慧的關鍵一戰,這就讓身為人工智慧供應鏈端的數據採集公司能夠獲得大量的收益,龍貓數據也將受到來自於人工智慧行業的恩惠。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

景馳科技闢謠:聯合創始人對CFO的指控不符股東會已罷免前者職務
專訪萊特幣創始人:科技巨頭併購加密貨幣平台將是突破點之一

TAG:DeepTech深科技 |