當前位置:
首頁 > 科技 > 新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度


摘要:在人工智慧灼熱與閃亮的背後,數據標註產業,作為做基礎的支撐,卻顯得格外粗糲與拙樸。

開玩笑的時候,小雪說她的男友是 AI 產業中工資最低的那個,其次就是她自己。

剛從濟南德州信息工程學校計算機專業畢業,小雪和男友正在接受手寫體錄入培訓,當她能認識這些手寫字母后,就輪到她把這些知識教給計算機——把一張張快遞單或家譜上的手寫體上的字母標註出來,告訴機器 i 可以有多種寫法。

這樣的工作並不簡單。手寫的 i 可能是頂上一點加上一豎,也可能是朝後彎的小勾,更潦草一點就和數字 9 一樣……小雪的筆記本上密密麻麻地擠滿了這些像字更像圖的墨跡。

小雪做的,是一種介於手寫錄入和圖像標記之間的工作。同服務於智能駕駛的街景標記、服務於智能醫療的人體標記、服務於語音交互的聲音標記一樣,他們共同的行業學名叫做「人工智慧數據標註」——這是整個 AI 產業的基礎,是機器感知現實世界原點。

和小孩一樣,機器要認識「蘋果」,就需要不斷有人教給它哪些東西是蘋果:渾圓的、帶把的、有的像桃心有的像屁股,有的通紅有的油綠。和小孩不同的是,機器需要在不同場景、不同角度下反覆學習,這個漫長的教授過程就是小雪在 AI 產業中的位置,標註大量用於訓練機器學習模型的數據,讓機器越來越像「人」。

無差別的人力,天壤之別準確度

如果小雪標註犯錯,最直接的後果是機器也會跟著犯錯。她必須保證「喂」給機器的標註數據達到 90% 以上精度(即是指標註的正確率),否則這些數據對於機器學習將毫無意義。北京一家數據標註工廠 Basic Finder 的 CEO 杜霖說:95% 以上的準確率是理想情況;但從 95% 提到 97% 所需花的成本就不再是一兩倍了,可能是 10 倍或 100 倍。

98% 精度是小雪遇到過的最高需求,這意味著如果 100 個點裡頭有兩個點不準的話,就會被打回重做。她「提心弔膽」地對每個標註點反覆確認才敢提交。但 15 骨骼點標註又極耗耐心,要在人全身包括頭頂、脖子、胸口、膝蓋等骨骼處打上 15 個點,將這 15 個點連起來就出現了一個形象的火柴人。在 Kinect 體感遊戲中,機器就是靠關鍵骨骼點的位移來識別人體是否運動。

令小雪最鬱悶的,是一張軍姿站圖。只要露出了頭、脖子、胸口,小雪就要從他的左上角開始畫矩形,框住這些動作、著裝完全一致的人。重複拖動近 40 個框後,她要再放大這些帶有藍色陰影矩形框,從頭到四肢標註完每個人的骨骼點。最後,將近 600 個點密密麻麻地落在了這張圖裡。

在這個她形容為「經歷絕望」的過程中,她嘗試用眼藥水來緩解疲勞,但滴過後會不停流眼淚,直到她換了種方式,靠不停揉眼睛來放鬆。杜霖說:有些任務圖上密密麻麻的點,看兩個小時以上眼睛絕對會花掉了,但他會要求員工不斷克服人本身的一些「消極因素」,才能避免標錯數據成為「漏網之魚」。

聯合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉認為,到 2030 年,人工智慧將向世界經濟貢獻 16 萬億美元。從 2016 年人工智慧逐漸走熱以來,任何行業都想搭上這個熱潮,投資人的評價是「每個商業計劃書上都要加上人工智慧」。進入深度學習「死胡同」的人工智慧需要標註的領域也帶來越來越多:機場安檢時新增的人臉識別、能識別選取商品的無人便利店、能安全行駛的無人駕駛等。

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

新興市場帶來了大量勞動力的湧入。「原來干淘寶刷單的,現在也能搖身一變做 AI 數據標註。」杜霖說,「在提供無差別人力勞動這件事上,大家是沒有門檻的。」

在河北衡水,由於當地政府查污染嚴重導致化工製品停產,26 歲的小蘇就帶著原先 30 多人的銷售團隊轉行數據標註,隊員小的到 20 出頭,老至年近不惑。雖然他早就知道河北做數據標註的團隊已經非常多,並且有的團隊已經垮掉,但人工智慧的火熱和數據標註的低門檻還是讓他決定一搏。

高中學歷是小蘇在招人時的最高期望,「高中生花一天做的工作,初中生可能需要花五天,差別很大。」行業中,小蘇的招聘標準已經算是較高水平,那些投身數據標註的兼職者學歷更加良莠不齊。在某些眾包平台上,有的標註者只有小學文憑,在東北還有一部分有聽力障礙的殘疾人標註團隊,而北京的全職工廠中的最高學歷是大專或者中專。

欣博友數據標註公司職員周京平認為,一個老農民在標註方言語音時可能會比不使用這種語言的大學生還好。同所有的人力密集型產業一樣,人人都能在此覓得一份營生。

人工智慧專業方向的碩士生毛毛認為,能不能達到理想標註精度和學歷沒什麼關係,而且操作非常簡單,只要教一下,誰都能做。她也曾做過兼職數據標註,在所給的圖片中她需要辨別出不同角度的花菜、菠菜等。一星期後,她標註了一萬張圖,沒有一張返工,每張報酬一毛錢。但她「打死也不會再做這個工作了」,因為「實在太重複」。

看似簡單的操作,要達到 90% 的精度對於大多數標註者來講卻是天方夜譚。小蘇所接觸到的兼職標註團隊最高精度只能達到 70%,即便是在全職和全把控的情況下,他們第一次項目只達到了 50% 的精度,基本上承接的每個項目他們都需要重複三次以上才能達到 90% 的精度。

如果用於訓練模型的數據精度低於 90%,就像小孩兒拿到的一年級數學課本裡頭寫的是一加一等於三。一開始就教錯,機器學習和人工智慧就只剩下指鹿為馬。

數字富士康

2014 年冬天,山東蓬萊積起了厚厚的雪。小雪每天都要不情願地鑽出被窩,趟著大雪走到一家汽車工廠去插線。在固定工位站好後,她根據形狀將面前充滿不同插口的集成器及一堆介面各異的汽車線路一一匹配好,完成後迅速將其交給下一個人,再重複剛才的動作,直到下班。小雪知道,自己站一整天的工作只是整個工廠裡頭很小的一部分。

相比那年冬天,她更喜歡現在的工作,數據標註工廠里,她有接近兩百個同事,大家能坐在屬於自己的工位上幹活。在給用於智能駕駛採集的圖片做標註時,小雪需要選取一個可以畫出 2D 框的標註工具(即是可以根據不同物體拖動出不同形狀的畫框),把圖片中所有的機動車、非機動車、行人、紅綠燈等標註出來。

同在汽車工廠流水線上的工作相比,眼前的鍵盤滑鼠顯示器替代了嗡嗡作響的流水線,從早上 8 點到晚上 5 點,小雪除了拽動滑鼠外什麼都不用想,重複一個動作就行,變化的只有眼前不同的圖片——但這對小雪來說,工作中的新鮮感已經足夠。

有的人說數據標註工廠就像富士康一樣。北京另一家數據標註公司瑪達科技公司 CEO 任樹亮則直言不諱,數據這一塊往往給人印象就是一個勞動密集型產業。某自動駕駛創業公司數據標註負責人經常私底下開玩笑說,這就是個「血汗工廠」。

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

目前的數據標註工廠,多集中在河北、河南、山東、山西等地區,這同以富士康為代表的傳統人力密集企業的選址偏好重合度極高——以更低廉的勞動力成本支撐起聚集在首都的人工智慧底層數據需求。杜霖介紹說,由於高昂的成本絕不能讓北京去做最終的生產,而是做所有新任務來時的磨合測試以及最終的質量控制。生產任務最終還是落到周邊城市。

只有招募像毛毛一樣的大學生做兼職標註時,眾包工廠能開出一張圖 1 毛錢「高價」。任樹亮對這樣的定價有些吃驚,「我們還有按厘算的呢。」在一堆不同圖片中識別某人是否是同一個人,這樣的工作只能按厘算,不過也有從幾十塊錢到上百塊錢報價的複雜標註圖。杜霖說,圖片的差異比較大,以工時來計算可能更準確,現在甲方公司至少應該給到 30 塊錢每小時才能保質保量完成。

小雪挺滿意現在的待遇,「之前的工作太累又掙不到錢」。現在公司包吃包住,提供四人間寢室,一個月到手的工資有 4000-5000 塊,還可以和男朋友一同上下班。最近一段時間,工期趕得很急,小雪已經連續兩個周末到公司加班,從早到晚地盯著顯示器讓她倍感疲憊,但她不想停下,基礎加計件的工資構成總是多勞多得。

和傳統生產流水線不同的是,在杜霖的工廠里,工作流程被設置為可實時切換:每期作業都不同,每期作業裡頭的每個任務也不相同。在一個小時的工作間隔里,小雪會碰到兩個相同的標註任務,當兩次標註結果差別較大時,就證明她已經疲勞了,這是,系統就會切換一個完全不同的任務交給小學操作,以保持員工的「清醒」和「新鮮」,最終達成杜霖宣稱的準確率。

算上合作的周邊工廠,杜霖的公司已經有 2000 多人,他們正在同時進行著 20 多個不同項目的標註。在這樣一個人力密集型行業里存活下來,並且保障交付的數據達到 90% 的精度,他堅信,管理才是關鍵。

管理,管理,以及管理

林霞是小雪的直接管理者,她是老闆杜霖最信任的人,已經有 18 年類似的工作經驗。當接到一個新項目時,她要確定整個項目流程。前段時間,林霞拿到了一個智能駕駛的標註項目,裡頭既有夜間拍攝的圖片也有白天的圖片,為了保證標註質量林霞就決定讓能力強一點的員工做夜晚圖片的標註,而能力弱一些的就標註白天拍攝的圖片。這是第一步,分析客戶給到的圖像,如果是涉及到對人的標註,要分析給到的圖片包里單人和多人的圖片各佔多少,明確需要標註的工作量大概多大。

分析完後,她會將具體的標註任務分配給手下的員工。可能一些人擅長標註道路場景,而另一部分人更擅長標註骨骼點,稍有難度的標註她會交給表現出色的員工,對他們進行重點培養。辦公桌右側的日曆上每一天空白處都畫著提示,如果標註進度比林霞想像中慢,她就必須留意其中的什麼原因。標註完成後,最困難的地方就過去了,接下來就是質檢、抽檢及合成數據交付給甲方公司了。

「統籌安排」是整個生產過程的核心,所有工作的底線是要按照客戶的要求按時完工。如果趕工期,林霞會要求手下員工加班,並且緊急調配人員。會出現一些讓林霞頭疼的員工,平時精度可能只能做到 50%,做出來的全是「廢品」。面對這種情況,林霞會堅持讓他換崗,「不行就不能在我這崗位呆著。因為我的作業他幹不了,既浪費我時間又浪費他時間,他還掙不到錢。」

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

林霞的這些經驗為小雪給別人培訓打下了基礎。作為公司里比較優秀的員工,入職一年後小雪就作為培訓老師之一去了河北徐水一居民小區里,這是她公司的一家合作工廠。這棟紅色外牆的居民樓一層是數據標註工廠,樓上是老年人活動中心。進了大鐵門後,有四個教室般大的工廠裡面放著新的台式電腦。除了部分來兼職的學生們外,大部分都是些已婚中年人,有的騎自行車十分鐘左右就可以到了,而有的就住在小區里。

第一次布置任務時,小雪不想給「學生們」的心理壓力太大,她只布置了十張標註的作業。但學生們對於標註規則總有不同的理解,同樣的東西她單獨給一個人講過三四遍。給他們練手的骨骼點標註圖片裡頭,需要先標註骨骼點再連線,但有身體特彆扭曲的圖像,而規則裡頭明確要求左肩和左胯在同一水平面上。那些拿不定主意的學生,會像小學生面對著自己的老師一樣,反覆向小雪求助和確認。

不清楚標註規則既影響標註速度又影響標註質量。同樣的一條眉毛,客戶給的標準是將其劃分成平眉和挑眉,但「平」和「挑」的定義,幾乎人人不同。一輪標註下來,一塌糊塗。為了熟悉各個公司需求文檔中不同的具體規則,每當遇到類似的新項目,林霞都會上手試標註。

兩個星期後,這些偶爾會將左手標籤貼在右手上的學生已經掌握了具體的標註規則,可以上崗了。小雪很享受被叫老師的時候,但還是更喜歡做數據標註,因為標註不費心,檢查要承受被用戶打回來返工的壓力,壓力更大。

對甲方公司來講,誰來標註、如何管理這些都不是他們需要擔心的問題,成本和按時保質交付才是核心。用智能程序覆蓋城市低速場景的酷哇機器人公司目前主要跟杭州一些高校合作,學生是標註主體,採用這樣的方式可以節省 1/3 的成本。曾對接過多次數據標註的工程師說,只要跟體量比較大的數據標註公司合作,一般精度和時間都可以有保障。

AI 產業的源頭和最不會被替代的人

每次回老家,當家人問起小雪的工作,她總是先說自己是「數據標註師」,再往下解釋,說是做和計算機相關一些人臉、骨骼點標註工作。但沒人聽得懂,小雪在說什麼,家裡人就會在此停止追問,並暗暗覺得這是一個響亮的高科技職位。小雪從來沒有想過自己的工作對於人工智慧來說算什麼,「只要掙錢就有意義」。

「負責靜態物體檢測/場景識別/OCR 文字識別,負責人工智慧與自動作業探索」這是百度招聘圖像識別與人工智慧演算法工程師的工作職責描述,而「紮實的數學基礎,掌握 C/C++和 Python 語言, 掌握 OpenCV,掌握機器學習基本演算法……」是對應聘者的要求。面對這些「同行業的同事」,中專文憑的小雪想不明白自己和他們的聯繫究竟為何。

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

但「小雪們」標註的上萬張圖片才是無人駕駛能夠紅燈停、綠燈行的基礎。沒有數據的清晰標註,深度學習的發展就是巧婦無米。另一家眾包數據標註公司 CEO 任樹亮認為,人工智慧就是盲人摸象,有很多不同的部位,數據標註也是人工智慧產業裡面很重要的環節,不過容易被認為很 low。

的確,同人工智慧的響亮名號相比,數據標註幾乎沒有任何技術門檻。小雪初三時才第一次學打字,上中專後才「正式」接觸電腦,而現在她已經被老闆表揚為最出色的幾個員工之一。踏實幹好現在的工作是小雪從入職以來唯一的想法,這是姥姥的囑咐,讓她給弟弟妹妹做好榜樣。其他人的情緒並不都像小雪一樣穩定。有人領到分配的骨骼標註圖片後,因為圖像裡頭人太多就直接不做任務,但資源包被領取後就無法再放回資源池,如果不做,這包圖片就不會有其他任何人能標註。而更不靠譜的人還會動搖其他員工。

2015 年的初秋,吃飽了午飯的小雪坐上來數據標註工廠派來接他們入職的大巴車,同行的還有 15 名將一起畢業的同學,開往北京的路上,他們嘶吼的歌聲蓋過了車內的音響,整整一路,那份一無所知的興奮感延續到了今天。每當聽到人們談論起人工智慧會替代人力的時候,小雪都覺得不知所云。

「即時是被替代,數據標註師也將是最後一批被替代的人。」杜霖把觀點灌輸給了小雪和她的同事們,這讓他們感受到了莫大的信心和驕傲。只有當真正把所有知識都教給老虎,貓才會被吃掉,在此之前老虎的獵物都只會是其他動物。作為人工智慧的「老師」,他們還要不斷教會人工智慧新本事。

某創業公司對接數據標註的負責人認為,商業競爭才是決定這部分人不會取代的關鍵因素。每家公司都有自己的數據標註需求,並且他們暫時不會公開自己的模型,就像在互聯網之初大家都不會開源自己的代碼一樣。可能到某個節點大家都公開自己的數據、模型後這部分人才會面對失業的擔憂。

就算到了人工真正要被取代的那天,杜霖堅信她和他的工廠也不會慌張。這位「廠長」正盤算著把他擁有的人力資源復用到其他領域,比如承接一部分內容審核、信息核查的工作,「審核滴滴司機的駕照是否真實、微信是否是真的實名制、頭條新聞是否是涉黃、涉恐」。

對於將來的發展,小雪還沒想太多。她現在正在學習 29 點的人臉標註,每隻眉毛上找到三個需要標註的點,眼睛上下眼皮各兩個點、眼珠一個點外加兩個眼角的兩個點,共五個點,嘴巴有六個點……聽完這些規則後,小雪驚喜地笑了,「一個人臉就出來了,老形象了,像 『彌勒佛』一樣」。

(責任編輯 卧蟲)

新時代的數字富士康?揭秘AI風口下的數據標註生意|極客深度

(彩蛋:小雪的「彌勒佛」)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 極客公園 的精彩文章:

因為有了它,我和老外說中文一點也不尬
堅果 R1 純白色版圖賞:迄今為止最好看的鎚子手機

TAG:極客公園 |