深度揭秘谷歌訓練 AI 隱藏勞力，「機器教練」只不過是廉價臨時工

新聞 04-25

新智元編譯

深度揭秘谷歌訓練 AI 隱藏勞力，「機器教練」只不過是廉價臨時工

全美各地，每天，都有谷歌的僱員們登錄他們的計算機，並開始觀看 YouTube 視頻。他們在視頻中查找暴力內容，在視頻標題中查找包含敵意的語言，他們決定是否將視頻片段分類為「攻擊性」或「敏感內容」。他們是谷歌的所謂「廣告質量評估員」（ads quality raters），通常是外部機構僱用的臨時工，工作是提交機器無法獨自進行的質量評判。而且現在，谷歌似乎迫切需要這些人的幫助。

YouTube 是谷歌旗下的大型視頻子公司，每天會在其網站的數百萬視頻銷售廣告位。系統自動確定這些廣告展示的位置，廣告主往往不知道他們的廣告會在哪個視頻上顯示。最近，這種不確定性成為谷歌面臨的一大難題。有多個審查報告揭露，YouTube 允許廣告顯示在鼓吹仇恨和恐怖主義的視頻旁邊。沃爾瑪，百事可樂，威瑞森等公司已經拋棄YouTube 平台，以及更廣泛的谷歌廣告網路。

谷歌一直在試圖控制事態，說媒體誇大了廣告顯示在攻擊性視頻旁邊的問題。該公司說，這類視頻觸及的「不到廣告主總曝光量的1/1000」。谷歌首席商務官 Philipp Schindler 表示，這個問題隻影響了「非常非常小的一部分」視頻。但據他們的廣告評估員（ad raters）的說法，谷歌正在集結他們的力量，以阻止這個問題變得更嚴重。

由於谷歌的收入90%來自廣告客戶，因此它需要找到那些攻擊性的視頻內容，防止更多廣告主放棄它的平台。但每天，有將近60萬小時的新視頻被用戶上傳到 YouTube，相當於需要一個小城市的人全天24小時觀看才可能看完。這也是為什麼這家科技巨頭強調，開發人工智慧內容過濾器的工作很困難，標記攻擊性視頻的軟體需要處理的視頻片段比以往任何時候都要多。Schindler 最近回答彭博社採訪時說：「這個問題不能由人類來解決，也不應該由人類來解決。」

但問題是，谷歌仍然需要人類來訓練 AI。因此，谷歌仍然依賴大量的人類工作者來識別和標記攻擊性的視頻材料，以構建可以讓 AI 從中學習的數據集。但有八名現任或前任評估員告訴WIRED，谷歌一度十分依賴廣告評估員的工作，與谷歌公司的溝通不足，以及缺乏工作穩定性，種種問題損害了他們的工作能力。

「我不是說這是目前谷歌的危機的全部原因，」一位前谷歌廣告評估員說，「但我確實認為，這個項目的不穩定性是一個因素。我們評估員訓練 AI，但我們非常清楚，人類的眼睛，以及人類的大腦，在評估內容時需要進行一些深思熟慮。」

YouTube 廣告危機：誰在訓練 AI

技術公司長期以來都有僱用內容審查者，隨著人們上傳和分享的內容越來越多，這項工作對這些互聯網巨頭而言變得越來越重要。廣告評估員告訴 WIRED，他們的角色不僅僅是監控視頻。他們需要閱讀視頻評論以標記用戶間的謾罵行為。他們需要檢查谷歌廣告網路提供服務的各種網站，以確保它們符合公司的質量標準。他們需要對這些網站進行分門別類，例如零售類網站或新聞網站，然後點擊廣告鏈接，看看鏈接是否有效。而且，正如他們的頭銜所示，他們需要自己評價廣告質量。

然而，3月份谷歌遭到廣告客戶的抵制之後，根據公司發送給評估者的一封郵件，谷歌要求廣告評估員將其他工作放在一邊，以進行「高優先順序的評估項目」，這「在可預見的將來」都將全部是他們的工作量。這個新項目要求他們完全專註於 YouTube，根據廣告主認為令人不快的內容條目，檢查視頻內容或整個頻道。一位廣告評估員說，「這是一個巨大的變化。」

評估者說這樣巨大的工作量意味著量和速度比準確性更為優先。在某些情況下，他們被要求在兩分鐘內檢查數小時的影片。在匿名在線論壇上，評估者們交換加快速度的技巧——例如，檢查 rap 視頻的歌詞以快速發現髒話，或者以10秒為單位跳著觀看視頻，而不是從頭觀看整個視頻。會有計時器跟蹤他們在每個視頻上花了多少時間，而且只有一個建議的截止時間，評估者說這增加了他們的壓力。「我很擔心假如我接連在太多視頻上花費了過多時間會被解僱，」一位評估者告訴 WIRED。

廣告評估員不只是將視頻標記為不合適。他們被要求對視頻標題和內容都進行細緻的評估，並且分類，例如包含「不合適的語言」，如「髒話」，「仇恨言論」，或「其他」；或者包含「暴力」，子分類是「恐怖主義」，「戰爭和衝突」，「死亡和慘案」，或「其他」；或者包含「毒品」，以及包含「性/裸露」（子分類是「虐待」，「裸體」，或「其他」）。這個系統還為廣告評估員提供「其他敏感內容」的選項——例如，有人在傳播極端的政治觀點。

評估人員說，有些材料並不總是能恰當地歸到所提供的類別。在這些情況下，他們需要將材料標註為「無法評價」（unrateable）。一名現任評估者描述了他如何給一個內容是兩個西班牙人在爭吵的視頻評估，「我把它歸類為『無法評價』，因為我不懂外語。」他說，「我也加上了一句說明，說這似乎是一個用外國語在互相辱罵的視頻，但我無法確定它們是否使用了冒犯性語言。」

有多名評估員說，他們曾被要求觀看令人震驚的內容。一名評估者說：「最近的視頻內容非常千奇百怪...比如有人試圖在卡車裡和他們的狗一起自殺，他先令卡車起火，然後下了車，拿槍爆頭死了。」在評估員們經常訪問的在線論壇上，有匿名帖子寫道，他們看過強暴婦女，兒童和動物的視頻。有些帖子表示，在連續觀看幾個這樣的視頻後，他們需要停下來緩口氣。廣告評估員表示，他們不知道谷歌是怎樣選擇讓他們觀看的視頻的——在開始評估之前，他們只能看到視頻的標題和縮略圖，看不到理由。他們要觀看的其他典型內容包括電子遊戲解說，政治言論，陰謀論等。

總而言之，鑒於給視頻評估所需的細緻工作，谷歌仍然需要人工協助來處理 YouTube 的廣告危機。在谷歌發給評估員的描述該工作目的的文件里寫著：「我們有很多的信息來源，但我們最重要的來源之一就是你。」但是，谷歌公司高管和重要人物一再強調，只有機器智能才能解決 YouTube 如此大規模的問題，但只有當谷歌（或其他）的機器足夠智能，聰明到能獨自從各種形式的表達中識別出真正的冒犯性言論，這才可能實現。在此之前，這樣的工作仍然需要依賴人力。

「我們一直依靠技術和人工評估的結合來分析標記給我們的內容，因為理解視頻的背景有時候是主觀的。」谷歌發言人 Chi Hea CHO 說，「最近我們增加了更多人來加快評估的過程，這些評估有助於訓練我們的演算法，以讓演算法隨著時間推移不斷改進。」

廉價勞動力：沒有加薪，甚至隨時可能被解僱

廣告質量評估項目（ads quality rater program）開始於2004年。它是谷歌的搜索質量評估項目（search quality evaluation program）的延伸，這個項目最初服務於谷歌的核心廣告業務：AdWords，生成與搜索結果和 AdSense 相符的廣告，並通過谷歌在網站上投放。最初負責招聘廣告評估員的機構是 ABE，支付的薪資是20美元/小時。一名前評估員說，那時他們可以全職工作，甚至加班。2006年，ABE 被 WorkForceLogic 收購，那之後他們的工作條件就不太好了。一家名為 ZeroChaos 的公司在2012年收購了 WorkForceLogic，因此現在與評估員簽約的是 ZeroChaos。

廣告評估員的工作經常吸引那些喜歡靈活的工作條件的人，包括剛剛走出校園的大學畢業生，退休工人，在家賦閑的父母，以及身體有殘疾的人士。評估員可以隨時隨地工作，只要滿足每周10小時的最低工時要求即可。他們只需要確保自己的筆記本或手機能夠使用。

但這份工作的不穩定性可能對許多工人造成傷害。「我們大多數人都喜歡這份工作，」一位廣告評估員告訴 WIRED，「但我們沒有成為全職僱員的機會。」

接受 WIRED 採訪的多數評估員都是通過 ZeroChaos 受聘的，但它只是向技術公司提供臨時工的機構之一。ZeroChaos 給受聘人員簽一年合同，但他們最多連續工作兩年就不再能續簽，至少直到最近仍然是這樣。有些工人認為這個限制令技術公司無法得到經驗豐富的評估員，而他們是最有資格做這項工作的。（4月初，在我們做這個報道時，ZeroChaos 通知受聘員工，這個兩年的限制條件已經廢除。）廣告評估員也不會得到加薪——每小時15美元，每周最多可以工作29小時。休息時間是沒有工資的。如果每周至少工作25小時，可以申請福利，但他們無法保證有足夠的任務來達到這個工作時限。工人們說，他們可能毫無預兆地發現自己被解僱了，沒有警告，也沒有返回給他們任何理由——多名受訪者都反應了這個問題，其中一名只工作了一周。該公司通過電子郵件通知員工他們已被解僱。

谷歌發言人 Cho 說：「谷歌努力與有良好工作條件記錄的供應商合作，當問題引起我們注意時，我們會警告這些供應商，並與他們合作解決問題。我們會進一步調查這個問題。」ZeroChaos 拒絕置評。

Human-AI

根據 WIRED 接觸到的多位廣告評估員的說法，技術行業的許多大公司都在僱用臨時工參加意在訓練 AI 系統的重複任務。一位廣告評估員描述了幾年前給 Microsoft Bing 的搜索結果進行評估的工作，人類評估員需要每小時瀏覽多達80頁的搜索結果。有評估員告訴 WIRED，LinkedIn 和 Facebook 也聘用人工進行類似的工作，LindedIn 是進行數據的注釋，Facebook 是要在粉絲頁面評估「贊助帖子」（sponsored posts）。（微軟拒絕發表評論，LinkedIn 沒有回應有這樣的項目，Facebook 也沒有回複評論請求。）

臨時工總體的不穩定性以及僱員的高流失率令評估員們感到不安，他們認為谷歌正在失去擁有更長時間工作經驗的評估員的專門知識，一位前評估員說，「他們花費時間和金錢訓練新人，然後趕走他們。」

但是，流動性高的廣告評估員可能是令 AI 能夠更聰明的最佳選擇。AI 研究人員和行業專家認為，經常流動的人類訓練員可能更適合去訓練 AI。AI 創業公司 Nara Logics CEO Jana Eggers 說：「AI需要許多不同的觀點，尤其在判斷冒犯性內容的方面。」她指出，即使是最高法院也無法描述「猥褻言論」，他引用了最高法院法官 Potter Stewart 對「淫穢」的定義：「只要我看到，我就會知道。」（I know it when I see it）。「讓機器擁有更多的眼睛去看能夠得到更好的結果。」

但是，AI 研究者普遍認為， 不良的人類情緒不一定會導致機器學習不好，可能會由於不同人的工作環境和經驗產生一些微妙的影響。康奈爾大學 AI 教授 Bart Selman 說：「人們通常的觀點是用大量多樣化的輸入是訓練 AI 模型的一個途徑。」「通常來說，這是很好的一般性指導方針，但在涉及到道德判斷時，大多數群體存在明顯的根深蒂固的偏見。」Selman 說，「例如，人們認為某些工作男性比女性做得更好，反之亦然。因此，假如你用一般人群的觀點或者過去的招聘決策數據去訓練一個招聘模型，你會發現一般人群中隱藏的偏見。而且，如果訓練你的 AI 的是焦慮的臨時工的看法，他們也會在這些系統中嵌入他們的偏見。」

「你不會希望通過觀察普通人日常生活的做法去訓練一個 AI 的道德倫理模塊，」Selman 說，「你會希望輸入來自那些對潛在的偏見和倫理問題有更多思考的人。」

山景城總部的谷歌員工享有風景如畫的辦公環境，免費的自助美食，休息室有游泳池和桌上足球。這與一名典型廣告評估員的工作環境天壤之別。為這家世界上最具價值的科技公司工作，可以意味著豪華的福利和巨額的薪資，也可能意味著作為一名臨時工，埋頭於重複單調的任務，為的是訓練這些公司的機器去做同樣的工作。

原文：https://www.wired.com/2017/04/zerochaos-google-ads-quality-raters/

新智元招聘

職位：客戶總監

職位年薪：30 - 60萬（工資+獎金）

工作地點：北京-海淀區

所屬部門：客戶部

彙報對象：COO

下屬人數：8 人

年齡要求：25 歲至 40 歲

性別要求：不限