深度|AI 標註員——新時代「數據民工」
去年的某一天,小袁被理髮店老闆開除了,原因是聽力能力有限,耽誤工作得罪了客戶。
這是「90後」小袁的第39次失業,在此之前,他在飯店做過傳菜工、在工廠做過皮鞋、在廣告公司公司做過牌匾、在奶粉廠裝過箱子……她總是因為無法避險、難以溝通被辭退。「我是燙手的小袁,因為我是聾啞人,所以我總是會燙到身邊的人,被扔出很遠很遠。」她用如此悲傷的文字描述自己內心世界。
終於,小袁的第40份工作滿足了她內心的渴望——掙錢不僅僅是混口飯吃,也是「為了做人的基本尊嚴」。
她用一個月時間的刻苦訓練,學會了用模板做數據標註,成了人工智慧革命浪潮背後的一位「數據標註員」,為企業提供圖像、語音、文本等的數據標註服務。「我很慶幸,也能成為一個在人工智慧產業中有用的人。」
AI 的應用越來越多,社會影響也越來越大。但在「人臉識別」、「自動駕駛」、「語音識別」等應用領域崛起的背後,核心依然是越發龐大但要求越發精準的數據。
離開數據談人工智慧應用,與「無米之炊」無異。「數據標註」工作自然也就成為將最原始數據變成演算法可用數據的關鍵步驟,是關乎整個AI產業的基礎,更是機器感知現實世界原點。
而「數據標註員」,正是未被寫出的、有關人工智慧產業幕後的隱形故事:中國有10萬名全職數據標註員和100萬名兼職數據標註員,他們源源不斷的用人工標註為人工智慧發展供應最重要的「數據燃料」。
這100多萬個標註數據的人,雖然大多學歷不高,卻決定了中國整個人工智慧行業的發展態勢:他們之間有小袁這樣生理缺陷者,找不到理想工作的職高學生,從工地輾轉而來的新生代農民工以及此前在淘寶「刷單」、而後賦閑在家的中年婦女。
1/流水線上加工數據
25歲的羅雪嬌,正把手寫體的古德文轉錄為印刷體字母,然後把這些轉錄出的文字發給OCR(光學字元識別)公司——這些被羅雪嬌一個個標註出來的字母,將作為後者機器訓練的數據材料。
這個工作並不容易。要知道,即便在德國,認識這種古老字體的人也寥寥無幾;但羅雪嬌卻如同流水線上的機器人,需要每秒鐘準確輸入1個字母。
在羅雪嬌的旁邊,另一位同事正為路況圖片中的各種機動車、非機動車、自行車和行人打標籤、做標記,並標註行進方向和是否有遮擋——這將用於安防系統,甚至能成為「能2秒過濾全球所有人口」的中國天網系統的基礎;另一位同事則在標記圖片中汽車的可行駛區域,之後會用於無人駕駛場景的訓練,他需要分毫不差的描繪建築物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標註成不同的色塊。
他們這種介於手寫錄入和圖像標記之間的工作,共同的行業學名叫做「人工智慧數據標註」——儘管數據標註並不算一個完全新興的產業,早在1998年「海天瑞聲」就已成立,但彼時人工智慧尚未興起,數據應用也相對較少。
「2011年針對AI的數據標註開始出現,2015年真正開始,2017年有了大爆發。」一家數據標註外包公司的主管說。
人工智慧浪潮催生了這一切,相關數據顯示,2017年,僅北京中關村大數據產業規模就超過700億元,貴陽則超過了1500億元。聯合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉也認為,到 2030 年,人工智慧將向世界經濟貢獻 16 萬億美元。
對於AI而言,優質數據必不可少,需要標註的領域也越來越多:自動翻譯的語音識別、機場安檢時的人臉識別、識別選取商品的無人商店、安全行駛的無人駕駛等等。
所以,就像傳統工廠一樣,一個叫「數據標註」的隱形產業正在迅速擴大,數據正在流水線上處理,被分塊加工,然後應用到不同領域。
「這是整個 AI 產業的基礎,是機器感知現實世界原點。」京東眾智一位高層人士對記者說,一張圖片識別系統能瞬間認出某個物品,一套語音識別系統能瞬間讀懂你說的話,其實也是一張張圖片、一段段語音素材後天訓練出來的結果。
「對圖片標註仍然需要依靠人力,」上述高層人士表示,儘管互聯網催生了浩如煙海的內容,但標註這件需要耐心和專註的「小事」,暫且還需要大量人力,「圖片包含的特性太多,比如在不同光線下的拍攝,模糊,清晰等等。即便在對5000萬張圖片進行歸類之後,也只有幾種特性被準確的標註出來了。」
標註作業有時並不簡單,比如這種關聯性標註
關於「數據標註」,上述京東眾智高層人士打了一個形象比喻:和小孩一樣,要認識一個足球,你不能告訴它是「圓形的」、「用腳踢的」、「黑白相間網格的」,最簡單最常用的辦法是,找來一個真實足球擺在小孩面前,告訴他「這就是足球」,沒有真球,用圖片或視頻也行。試過幾遍就會發現,孩子就能「自然而然」地認出足球。
機器也一樣,工程師想讓 AI 準確識別出足球,最好辦法不是用代碼來描述足球,而是直接找來很多張帶有足球的圖片,用 AI 能讀取的方式把圖片、視頻里的足球「標註」出來,扔進 AI 模型訓練,之後它「自然而然」就獲得了識別足球的能力。
和小孩不同的是,機器需要在不同場景、不同角度下反覆學習,這個漫長的教授過程就是羅雪嬌們在 AI 產業中的位置——標註大量用於訓練機器學習模型的數據,讓機器越來越像人。
3/一個讓人崩潰的「辛苦活」圖片為簡單標註方式的一種
通常而言,數據標註得越準確、數量越多,最終訓練出來的模型效果就越好。
對羅雪嬌而言,她必須保證給機器標註的數據達到90%以上精度(即是指標註的正確率),否則最直接的後果是機器也會跟著犯錯,這對演算法模型訓練而言將毫無意義。
90%的精度,意味著100個點裡有10個點錯誤就會被打回。
羅雪嬌遇到過一次「讓人崩潰」的經歷,那是一張人物群體站立圖,只要露出了頭、脖子、胸口,羅雪嬌就要從圖片的左上角開始畫矩形,框住這些動作、著裝完全一致的人。重複拖動50個框後,要再放大這些帶有藍色陰影矩形框,從頭到四肢標註完每個人的骨骼點。最後,600多個點密密麻麻地落在了那張圖裡。
這個項目讓她不記得重複了多少次,「拉框要求十分精細,偏差絲毫都不行。最後無論是滴眼藥水,還是冷水洗臉,拍打臉部、揉眼睛,都沒有任何作用,只剩下流眼淚了。」羅雪嬌說。
「有些任務圖上密密麻麻的點,看兩個小時以上眼睛絕對會花掉了,只有要求員工不斷克服人本身的一些『消極因素』,才能避免標錯數據。」數據標註公司、BasicFinder創始人杜霖說。
其實,看似簡單的操作,要達到90%的精度對大多數標註者來講卻是天方夜譚。據了解,很多兼職標註團隊最高精度只能達到70%,即便是在全職、全把控情況下,很多項目只能達到50%的精度,基本上承接的每個項目都需要重複三次以上才能達到90%的精度。
但現在,越來越多的客戶要求達到95%甚至97%的精細化標註。「95%以上的準確率是理想情況,但從95%提到97%所需花的成本就不再是一兩倍了,可能是100 倍。」杜霖說。
每個行業人士都認為這是一個「讓人崩潰的辛苦活」。提起「數據標註」四個字,2002年成立,來自上海的華院數據的首席科學家尹相志不禁苦笑:幾個月前,華院數據舉辦過一次大數據應用比賽,在「通過賣場貨架圖片自動計算產品的貨架佔有率」這項測試中,她們拍攝了1600多張真實的貨架圖片作為原始數據,為了讓比賽的難度不那麼「變態」,她們還為選手們提供了「精細化標註」後的貨架圖片——也就是貨架上每一包緊挨著的零食、泡麵,都要延邊緣仔細劃分。最終,這一千多張圖片的標註耗費了12個人大半個月時間,負責標註工作的組員「幾近崩潰」。
另一個例子是,李飛飛創辦的ImageNet,是目前世界上圖像識別最大的資料庫,擁有1500萬張標註圖片,不過大部分人不知道,這是來自167個國家的48940名工作者,花費了2年時間,清理、分類、標記了近十億張通過互聯網搜集到的圖片,才得到這個有1500萬張圖片的數據集。
「無論國內外,情況都差不多。一旦要求質量,每個人的產出量就不會太多。熟練者平均一天可以標註40張圖片,前提是只需要為圖片中的物體打框、標註類別和前後關係。如果涉及到刻畫建築物邊緣等複雜細節,一天標註10張已是極限。」一位數據標註行業人士說,看似簡單的數據標註背後,其所耗費的時間與人力,遠非一般項目可比。
在高質量數據標註不容易,同時又決定了一家人工智慧公司競爭力情況下,國內外大大小小的科技公司都開始用另一種方式,來完成這樣細碎的任務,以獲得更細緻、更準確的數據。
3/AI時代的「富士康」這種方式,就是外包。
實際上,無論是Google Open Image Datasets中的900萬張圖片,還是YouTube-8M中包含了800萬段被標記的視頻,這些精心標記的數據,大部分是由亞馬遜勞務外包平台「Amazon Mechanical Turk」(以下簡稱AMT)上數十萬名註冊用戶花費2年時間完成的。
科技網站TechRepublic的一篇文章描述稱:這些分布在全球各地的50萬名工人們,晝夜交替、時常待命,對數據進行手工輸入、分類,區分出下一張照片中是否有「狗」,語句中的「bass」到底是低音還是鱸魚。
文章評價稱,人類變成投喂機器的流水線工人,亞馬遜AMT也順勢成為AI時代的富士康。
在國內,人工智慧創業公司、BAT同樣採用了目前數據標註行業的主流模式——「外包」。某數據標註公司負責人就透露,BAT、商湯、曠視、雲從科技這類大的人工智慧公司,一年在數據上的外包支出高達數千萬元。此外,學術團體、政府、銀行等傳統機構的需求相對較小但有不斷增長的趨勢。
「按照人員規模劃分,現在的數據標註行業分為小型工作室(20 人左右)、中型公司以及巨頭企業。」京東金融眾智平台項目負責人對記者表示,而從外包方式來看,也分為「眾包」和「工廠」兩種模式。
眾包(Crowdsourcing)平台是《連線》(Wired)雜誌2006年發明的一個專業術語,用來描述一種新的商業模式,即企業利用互聯網來將工作分配出去、發現創意或解決技術問題。
京東金融方面提供給本報的數據顯示,2018年1月,京東金融發布國內首個聚焦人工智慧領域的數據眾包平台——京東眾智,通過聚合擁有碎片化時間和閑暇時間的普通人,為企業提供圖像、語音、文本、視頻的數據標註等服務。
「百度眾包」、「龍貓數據」、數據堂等同樣是這個模式。去年11月,龍貓數據宣布獲得3370萬元A輪融資,且用戶量達到百萬級,為百度、騰訊、小米等數十家科技公司提供數據標註業務。數據堂則成立於2011年,並在2014年12月10日成為第一家在新三板上市的數據標註企業。
記者觀察發現,無論是百度眾包,還是京東眾智、龍貓數據、數據堂,官網首頁都有明顯的 「任務簡單、輕鬆賺錢」廣告,其實質都是把任務轉嫁給網民——某知名數據眾包平台就據稱,其擁有超過5000名數據標註專員,上十萬數據標註兼職人員,單日可處理超過200萬條數據,能穩定提供數據標註服務。
「亞馬遜AMT也是如此,每天會發布任務給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的。」在杜霖看來,由於參與眾包標註的工作者數量很多,專業背景和工作能力參差不齊,其標註質量也並非所說的那麼可靠,一些任務收集到的標註內容中存在雜訊甚至錯誤,不能直接作為正確的標註使用。
以定製為主的數據標註「工廠」模式應運而生——也就是自己經營團隊,成為一個上游,對整個流程進行控制。
BasicFinder採用的正是「工廠」模式,其註冊成立於2015年, 2017年3月份完成了一千多萬元pre-A輪融資。目前與二十來家「數據工廠」有長期業務合作,這些數據工廠有些是參與投資,有些是深度合作,少則幾十人,多則兩三百人。
而具體到標記過程,杜霖表示都是流水線式的,從最前端的任務定義、採集數據,到中間的清洗、加工,以及後端的質量檢測、訓練迭代等全部環節分開作業,並開發了一套系統輔助人工提高效率。
算上合作的周邊工廠,杜霖的公司已經有 2000 多人,他們可以同時進行 20 多個不同項目的標註。在「工廠」內部,如同傳統製造加工業一樣,這裡的各個小組都有自己的管理者。管理者之上是項目經理、高層管理者。員工「生產」的內容會經過質檢人員的核驗,全部合格後才會最終交付項目方,以便保證穩定的標註效率和質量。
同樣,受困於人力成本,「工廠」很多時候不得不把一些業務外包給小團隊,因此在這些相對規範的機構之外,還遊離著眾多規模不等的「小作坊」——在京東眾智負責人看來,這同樣是一個短板:「小作坊沒有標註工具,而工廠更多是流程化操作,缺乏合理的運營模式。」
4/搖身一變都做AI數據標註外包的興起,讓數據標註員成為一個熱門行業——相關數據顯示,截至2018年1月,目前中國有10萬的全職數據標註員,以及100萬的兼職數據標註員。
「在提供無差別人力勞動這件事上,大家是沒有門檻。原來干淘寶刷單的、送快遞的、賦閑在家的大媽,現在也能搖身一變做AI數據標註。」 杜霖說。
無從統計那100萬兼職數據標註員都來自何方,但數據標註工廠,目前多集中在貴州、河北、河南、山東、山西等地區,這和傳統製造企業富士康契合——演算法公司和人才多集中在北深杭等科技核心區域,而作為一個「勞動密集型」的中低收入行業,數據標註人員散落三四線城市。
在距離「大數據之都」貴陽市中心50公里的惠水縣百鳥河數字小鎮,有一個規模500人的「數據工場」,合作對象包括百度等AI巨頭,500名數據標註員中,近一半是隔壁一家扶貧高職「盛華職業學院」的學生。
除上課外,這些不懂AI的學生們每天有大約6個小時可以工作,「易於管理、盡職盡責」是該數據工場負責人給這些學生的評價。對於當地政府和學生而言,這是一件雙贏的事:學生們大多來自貧困山區,在數據加工公司兼職賺來的錢不僅足夠生活,有些學生還會拿出一部分補貼家用。當地媒體《貴州日報》稱,未來三年百度將在百鳥河基地完成2萬小時的數據加工,直接解決1000人就業,促進惠水縣每年近5000餘名大學生優質就業。
作為一個勞動密集型行業,門檻並不高,幾萬元啟動資金,就可以在四五線小城組起一個「工作室」。在河北衡水,原來在化工廠製品上班的小蘇,帶著原先 30 多人的銷售團隊轉行數據標註,隊員小的到 20 不到,老的超過40,共同點是都不明白什麼是AI。
高中學歷是小蘇在招人時的最高期望——在行業中,這個招聘標準已經算是較高水平,在某些眾包平台上,有的標註者只有小學文憑,在北京的全職工廠中,最高學歷是大專或者中專。而在京東眾智平台上,則重點強調眾智工作的殘疾人士比例,截至目前,在京東眾智平台上從事數據標註工作的總人數已達到30000人,其中殘疾人士1000人左右。
在這個行業,理想標註精度和學歷沒什麼關係,而且操作非常簡單,經過培訓,誰都能做——一家數據標註公司的高層人員就表示,一個農民在標註方言語音時,可能會比不懂這種語言的大學生還好。
事實上,對發布任務的甲方公司來講,誰來標註、學歷高低、如何管理這些都不是他們需要擔心的問題,成本和按時保質交付才是核心。
某數據公司的主管說,通常數據工廠需要處理的客戶訂單往往以萬為單位。比如客戶要求 6 萬張圖片,7 天內完成標註,理論上這個訂單需要 200人左右,共同機械般工作 7 天才能完成。
但部分AI公司卻過分壓低預算,把項目外包給一些不靠譜的團隊,工期又很短;這些團隊做不完、做不了,又會把任務轉包給另一些小團隊,或重新找到大的數據標註公司,使質量和交期都無法保證。
這種情況下,層層外包也就出現了,「小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說,聽過沒見過。」曾做室內裝修,現在轉行做AI數據標註的小何說,他們的項目都是從小公司手裡接的,連發包方的名字都不知道」
「數據標註行業比較混亂,沒有一個標準,低價競爭和行業不規範,導致層層外包是行業的噩夢。」京東眾智平台的負責人李工說。
甚至,這還可能涉及欺詐。「我們這邊剛收到的上家發來的一個數據標註任務,到公司應該是四五手資源了。公司為了節約成本讓我們在網上發帖招收大量任務標註員,然後剩下的就能想像到了。」7月4日,某數據標註公司一位內部人士老柳對記者稱,公司以試標題的形式要求兼職人員完成,一般都是以時間或者數量,第一次給你打回去,然後讓你反覆的試題,最後合格了,我們再以各種理由推脫拒絕薪酬。
「甚至,人們不會想到的是,兼職人員做過的題,我們自己改動下也能節省很多時間。」老柳說。
他們也有自己的無奈,一手的項目在誰手上,價格多高,會經歷多少層級,每層有多少利潤,都是謎。對小團隊來說,層層外包下來,其實沒什麼利潤了,「比如,一個拉框平均4分,一個人一天最多能做4000個,一共160元。過關率90%,再除去審核成本,再給每個標註員每天發100元左右的工資,平均下來工作室每天也就從每個人身上賺20元,公司都虧損了,還拿什麼去付給兼職的呢?」
人物特寫/1年前的秋天,18歲的小芳坐上了數據標註工廠派來接他們入職、開往河北的大巴車。同行的,還有10名在同一個加工廠工廠實習的同學。
彼時,只有中專文憑的小芳怎麼也想不明白,怎麼老闆就看上了自己,自己也可以去做人工智慧這種高大上產業相關的工作。要知道,出身農村的小芳,都是在上初中後才接觸過電腦。
1年後,現在的小芳已經被老闆表揚為最出色的幾個員工之一。踏實幹好現在的工作是她從入職以來唯一的想法,也是她改變農村貧困環境的最好方式——最近一段時間,由於工期趕得很急,小芳已經連續幾個周末到公司加班,每天十多個小時盯著顯示器讓她倍感疲憊,但她不想停下,基礎加計件的工資構成總是多勞多得。「我計劃著,能拿多一些錢,好寄回去給長期腰痛的媽媽買點葯,給弟弟妹妹添一件衣服。」
不過,同所有的人力密集型產業一樣,人人都能在此求生的同時,收入並不高。某自動駕駛創業公司數據標註負責人經常私底下開玩笑說,與動輒幾十萬、甚至上百萬的AI工程師相比,從事著AI數據標註的行業可謂是個「血汗工廠」,兼職員可能收入1000多元,全職的收入也不過三四千元。
通常,一件普通任務是按分、甚至是厘算的,比如在一堆不同圖片中識別某人是否是同一個人,這樣的工作只能按厘算。只有複雜標註圖時,收入可能更高,有可能甲方出到每小時幾十元,以便保質保量完成。
因此,在這個超過110萬人的數據標註員軍團中,人來人往,有許多人進來了,也有更多人難以忍受低收入、枯燥單調重複的工作而離開——兼職做過數據標註的小貓說,她曾接到過一個在所給圖片中辨別不同角度素菜的任務,幾天後,她標註了一萬張圖,沒有一張返工,但她說自己再也不會做這個工作,因為就像「流水線上的螺絲釘」一樣不斷重複。
實際上,堅持留下的,往往是家庭條件並不好,想憑自己努力改變家庭和命運的人。算上加班費,小芳現在每個月能拿到3000多元,這讓她很是滿意了,畢竟家裡父親種地一年也不過這個數字。而且,每次回老家,當家人問起小芳的工作,她說自己是做一些人臉、骨骼點標註的「數據標註員」,家人不懂,但如果說是人工智慧相關的工作,從電視上看到過這個名詞家裡人就會停止追問,並覺得這是一個響亮的高科技職位。
這樣故事,還有很多很多,他們的夢想,則與AI這個高大上的行業相去甚遠:職高學生小志從貴陽坐了四小時的大巴回到山區家中,第一件事就是將做數據標註得來的錢塞到母親手裡,他的家裡父母都務農,身體也不好,家裡除了房子和田,唯一像樣的財產是一頭牛。先後做過廚師、進過工廠的犇犇,在轉行做數據標註員後,用工資給在建築工地打工的父親買了電動剃鬚刀;何軍家在河南周口,打算把錢都存著娶媳婦,過年期間就要見幾個相親對象……
至於小袁,想再掙點錢後換一副助聽器,現在這個,他已戴了好多年,把他不斷長大的耳蝸磨出了新新舊舊的傷——在此之前,這個戴了多年的助聽器,讓小袁在飯店做傳菜工時,因為廚房的尖銳噪音不得不關掉,最終導致他在工作中頻頻出錯被辭退。
相關鏈接/常見的幾種數據標註類型
1. 分類標註:就是常見的打標籤。一般是從既定的標籤中選擇數據對應的標籤,一張圖就可以有很多分類/ 標籤:成人、女、黃種人、長發等。對於文字,可以標註主語、謂語、賓語,名詞動詞等。
適用:文本、圖像、語音、視頻
應用:臉齡識別,情緒識別,性別識別
2. 標框標註:就是框選要檢測的對象。如人臉識別,首先要先把人臉的位置確定下來。
適用:圖像
應用:人臉識別,物品識別
3. 區域標註:區域標註要求更加精確。邊緣可以是柔性的。如自動駕駛中的道路識別。
應用:自動駕駛
4. 描點標註:一些對於特徵要求細緻的應用中常常需要描點標註。人臉識別、骨骼識別等。
應用:人臉識別、骨骼識別
5. 其他標註:標註的類型除了上面幾種常見,還有很多個性化的。根據不同的需求則需要不同的標註。
數據標註的過程
1. 標註標準的確定
確定好標準是保證數據質量的關鍵一步,要保證有個可以參照的標準。一般可以:
設置標註樣例、模版。例如顏色的標準比色卡。
對於模稜兩可的數據,設置統一處理方式,如可以棄用,或則統一標註。
參照的標準有時候還要考慮行業。以文本情感分析為例," 疤痕 " 一詞,在心理學行業中,可能是個負面詞,而在醫療行業則是一個中性詞。
2. 標註形式的確定
標註形式一般由演算法人員制定,例如某些文本標註,問句識別,只需要對句子進行 0 或 1 的標註。是問句就標 1,不是問句就標 0。
3. 標註工具的選擇
標註的形式確定後,就是對標註工具的選擇了。一般也是由演算法人員提供。大公司可能會內部開發一個專門用於數據標註的可視化工具,也有使用開源的數據。
往期內容回顧
調查 | 每日分紅 1%?「環球天鷹」真相揭秘
調查 | 「分分彩」內幕,網路博彩的巨坑
人物 | 李想的孤獨理想
人物 | 董小姐有些失敗的這五年
深度 | 上市半年,B 站已經不是那個 B 站了
深度 | 羽泉難堪,朋友鋃鐺


※900倍?一個電視劇都不敢這麼演的投資騙局
※攜程親子園虐童案8名被告獲刑;劉立榮真賭輸了十幾個億
TAG:鋅刻度 |