發現果體:鑒黃AI職業技能大賽,谷歌微軟亞馬遜誰最強?
開車栗 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
雖說,大家都喜歡看,會被舉報的那種圖片。
但網路,特別是社交網路,還是需要凈化環境。畢竟,沒有分級制度,純潔的花朵可能受到污染。
鑒黃師,令人艷羨的職業,就這樣誕生了。犧牲了自己,成全千萬家 (寫反了) 。
手動@唐馬儒
當然,能做鑒黃師的不只有人類:計算機不需要發工資,閱片無數也不會產生生理反應影響工作。
於是,許多科技巨頭開發了自己的AI鑒黃師,自動過濾一些NSFW的內容。
Not Safe For Work
有些內容,如果AI不是很確定要不要阻擋,再交由人類做最終的裁決。
這樣一來,鑒黃師的身心得到了保護,工作效率也比從前高出許多。
職業技能大賽
谷歌、微軟、亞馬遜,以及Clarifai這樣的初創公司,都提供了圖像審查API,把成人向元素檢測出來——
1號選手:Google Cloud Vision
2號選手:Microsoft Image Moderation
3號選手:AWS Rekognition (亞馬遜)
4號選手:Clarifai Nudity
Dataturks團隊,想要比一比這幾家AI的鑒黃能力,也看看人類的工作能從多大程度上被取代。
比賽用的是開源數據集YACVID,包含180幅圖像,其中90幅被人類鑒黃師標註為「果體 (Nude) 」,另外90幅為「非果體 (Not Nude) 」,是為標準答案。
非果體舉栗:
果體舉栗 (此處不便,請使用傳送門) :
https://s3.amazonaws.com/com.dataturks.imagemoderation/nonnude26.jpg
(需把nonnude26,改成nude01、43、57、74等)
每位選手要辨別全部180幅圖,到底果不果。
比賽成績由幾部分組成——
真正(True Positive,TP) :正確識別非果圖的次數;
假正(False Positive,FP) :將果圖識別成非果圖的次數;
假負(False Negative,FN) :將非果圖識別為果圖的次數;
真負(True Negative,TN) :正確識別果圖的次數。
這個世界很危險,真正越多越好,假正越少越好。
另外,如果假負太多,表示系統的功能比較弱小,人類的工作負擔就比較重。
谷歌是第一
看一下結果吧。
總體來講,谷歌表現最為出色,真正和真負的都是最高的。
相比之下,微軟和亞馬遜AWS的假負略高,容易謊報險情。
而Clarifai,雖然假正 (0)和假負 (2)都比較低,但真正和真負也都在80以下。也就是說,它不易錯報軍情,但有許多情況要交給人類判斷,因為AI不確定。
但總體來說,四位選手的表現都不差,所以測試團隊決定讓它們聯手。
結果是,谷歌與亞馬遜AWS,合作最為順滑。不過,依然有10%的安全圖像,需要得到人類的確認。
也不知道,人類鑒黃師會不會感念AI的幫助。
大家容易錯在哪?
Google Cloud Vision
被谷歌鑒黃師標記成「可能 (Possible) 」,「好像 (Likely) 」,「非常像 (Very Likely) 」的圖像,就是去往危險分類的圖像。
這些是谷歌報告危險,但人類認為安全的栗子:
標記成」不像 (Unlikely) 「,以及「非常不像 (Very Unlikely) 」的,便是AI判斷的安全圖像了。
比如,谷歌說nude61 (可從上文傳送門前往觀察) 是安全的,但人類不同意。
AWS Rekognition
亞馬遜審查員,有「顯然是果圖 (Explicit Nudity) 」,「果圖 (Nudity)」,「可能是果圖 (Suggestive)」這幾種危險標記,被划到NSFW里去。
這樣一來,穿得客氣一點的小姐姐,就很難過審了。
看來,像「Possible」和「Suggestive」這樣的謙虛標記,容易比人類的過濾得更嚴格。
這樣,鑒黃師們就算有了AI的協作,也依然能審到一些比較不錯的圖片,不會失去工作的動力吧。
溫柔的暢想
180張圖片,AI秒速欣賞完畢。單身30年也難企及的速度。
聽上去不錯,就是不知道,未來的AI能不能解鎖人類的快感。
有興趣的各位,可以前往以下地址,獲取數據集和代碼:
https://dataturks.com/blog/image-moderation-api-comparison.php
—
完—


※搜狗營收創新高,股價卻跌7%,對話王·玄奘·小川
※一顆賽艇!上海交大搞出SRNN,比普通RNN也就快135倍
TAG:量子位 |