谷歌前員工因建言YouTube被炒魷魚,開源揭秘其演算法
作者 | Debra
編輯 | Emily Chen
AI 前線導讀:一名谷歌的前員工據說因推薦演算法問題建言惹怒上司而被被東家解僱,之後他便致力於 YouTube 推薦機制的透明化工作,不僅開發軟體揭秘 YouTube 演算法機制,還建立了一個網站開源他揭秘 YouTube 和谷歌(收購 YouTube)演算法的方法。
不管他是懷著何種目的來揭「老東家」的短,他的這一舉動都將對推進演算法透明化進程做出好的帶頭作用。用過 YouTube 的人可能都有這樣的體驗,當你看完一個視頻以後,YouTube 會向你一個接一個地推薦視頻,等你回過頭來一看,兩個小時已經過去了,而且你可能會看到一些價值觀奇怪,甚至扭曲的內容。不只是 YouTube,Facebook、twitter、微博等社交媒體都會採用類似的推薦演算法,讓你看一些有趣可愛的內容還好,但是可怕之處在於它的邏輯傾向於「單向」,比如當你觀看了一條關於車禍的視頻,系統會接下來會自動推薦更多的相關內容如災難、校園槍殺、氣候變化等負面的內容。
這樣的演算法機制是什麼,卻很少有人有全面的了解。
更多乾貨內容請關注微信公眾號「AI 前線」,(ID:ai-front)
YouTube kid 採用人工推薦取代演算法推薦,AI 演算法不靈了?
2015 年,YouTube 曾推出一款目標受眾為兒童的 app YouTube Kids,一直以來和 YouTube 網站一樣,都是使用演算法推薦內容。但演算法推薦並沒有達到該公司的預期,為了防止推薦演算法為兒童推薦不適合觀看的內容,YouTube 已經決定用人工選取內容的方法代替演算法推薦,並重新思考如何使用推薦演算法中的過濾器。
新版 YouTube Kids app 可能不僅依賴計算機演算法,而是包含由 YouTube 管理團隊直接挑選的內容。簡而言之,應用程序中的視頻必須由人工,而不是計算機手動審核。
目前尚不清楚這款軟體是否會完全作為新應用上架,但似乎最有可能基於現有的信息,採用人工審核內容的新模式。對此 YouTube 沒有發表評論,但消息人士稱新版本可能會在「未來幾周內」發布。對於父母來說,這是一次重大勝利。但對於技術人員來說,世界上最大的視頻網站開始放棄在自己的產品中使用推薦演算法,難道推薦演算法不靈了嗎?
YouTube、谷歌演算法屢屢被爆扭曲事實,演算法到底哪裡出錯了?
作為全球最受歡迎的視頻網站之一,YouTube 擁有超過十億用戶每天觀看十億小時以上的數據 。YouTube 向公眾公開展示了一些數據,例如視頻觀看量、點贊或被踩的次數。但是,它同時還隱藏了每個視頻更細微的細節,比如網站向其他人推薦它的頻率。沒有完整的理解,我們就很難知道它的演算法究竟將你向什麼方向上引導,以及推薦的帶有偏見的視頻背後被扭曲的事實究竟是什麼。
YouTube 已經不止一次因為因為推薦內容不當或扭曲事實而受到公眾的譴責。
2018 年 1 月,網上被一則由網紅 Logan Paul 上傳的在日本自殺森林死者旁邊發表不當言論的視頻刷爆,截至 24 小時後被下架,這則視頻的觀看量已達 600 萬。Logan Paul 對死者的輕蔑和不尊重引發眾怒,同時掀起了一股譴責 YouTube 平台將這種視頻放在推薦首頁的聲討浪潮。
YouTube 還被質疑利用演算法引導拉斯維加斯槍殺案背後的陰謀論,拉斯維加斯的倖存者們因為 YouTube 宣傳短片而憤怒,指責他們拍攝了一個騙局。在 4 月份 YouTube 總部附近發生的女殺手槍擊案中,女殺手在槍殺 1 人,並導致 4 人受傷後自殺,原因據說與其在 YouTube 平台上視頻的觀看量下降有關。
利用推薦,YouTube 平台還間接鼓勵了如粉紅豬小妹吃掉父親、喝漂白劑等視頻背後,以兒童為受眾的次文化。
除了 Facebook、Twitter,YouTube 同樣被質疑利用演算法影響 2016 年大選,在大選期間成為製造和傳播虛假信息的引擎等等。
演算法原理和產生的問題
據公司內部人員透露,演算法已經成為驅動 YouTube 收入增長最有效的工具,使用神經網路通過大量數據和用戶觀看記錄對用戶進行分析,YouTube 的工程師將其描述為「目前規模最大、最複雜的商用推薦系統」。那這個推薦系統到底是怎麼工作的呢?
上圖是 YouTube 推薦系統的體系結構,在向用戶展示少量推薦視頻之前,會對視頻進行檢索和排名。
本質上,過濾氣泡(filter bubble,一種網站針對個人化搜索而提供篩選後內容的結果)的生成方式,也是所有推薦演算法的工作原理。一小段電腦代碼跟蹤你正在進行的動作,比如你最常看的視頻分類、最長觀看時間,然後推薦給你同一類型的視頻。從某種角度而言,YouTube Kids 提供的節目明確按照孩子們想要看的視頻進行推薦。實際上是孩子們自己做出的選擇,直到第二次他們失去了興趣,選擇看其他視頻。
內容推薦演算法的過程一般包括以下三步:
Item Representation:為每個 item 抽取出一些特徵(也就是 item 的 content 了)來表示此 item;
Profile Learning:利用一個用戶過去喜歡(及不喜歡)的 item 的特徵數據,來學習出此用戶的喜好特徵(profile);
Recommendation Generation:通過比較上一步得到的用戶 profile 與候選 item 的特徵,為此用戶推薦一組相關性最大的 item。上圖內容推薦演算法的步驟展示出了推薦演算法的基本原理。
而孩子們觀看視頻有一個特點,就是喜歡反覆觀看同一個視頻,直到完全理解。與過濾氣泡推薦演算法相結合,其實 YouTube 應用軟體只是忠實地對孩子的想法作出反饋,推薦更多相關內容。但這也被別有用心者利用,傷害孩子的身心健康。
雖然 YouTube Kids 視頻的創造者花費無數的時間來與推薦演算法博弈,使他們的視頻有儘可能多的機會被推送給更多觀眾,但是由於一旦偏離了特定的分類和標籤,就會面臨巨大的風險,因此,推薦演算法和商業策略的相悖會繼續阻礙健康、民主、較為平衡的內容生態的維護。
谷歌前員工自建網站,推出開源項目破除 YouTube 演算法過濾氣泡
普通人對於 YouTube 的做法可能只停留在憤怒和譴責層面,做不了更多的事。但有人卻將之付諸行動,並尋求解決的辦法,致力於推動演算法透明化。
谷歌前員工 Guillaume Chaslot 就是後一種人,他自建了一個網站 Algotransparency.org,用來揭示 YouTube 和谷歌演算法的工作原理,讓這個被稱為全世界目前最複雜的商業推薦系統演算法透明化。
據 Guillaume Chaslot 稱,2013 年,他因為建議公司讓用戶對內容有更多掌控權而被公司開除。回顧他在谷歌工作的三年中,他曾與 YouTube 工程師團隊一起工作了幾個月,負責推薦系統。這一經歷使他得出結論,YouTube 給予其演算法的優先地位是極具危險性的。
「YouTube 給你營造一種被扭曲的現實,」他說道, 「推薦演算法並未進行一種真實、平衡或健康的優化。」
Chaslot 解釋道,YouTube 演算法是會不斷變化的。它會不斷改變其賦予不同信號的權重:例如,用戶的觀看模式,或者在有人點擊之前觀看視頻的時長。
在 YouTube 那段時間,他與他合作的工程師負責不斷嘗試新的公式,通過延長人們觀看視頻的時長來增加廣告收入。他回憶道:「觀看時長是重中之重。 其他一切都不重要。」
他特別擔心演算法對事實的扭曲,因為過於聚焦在向用戶展示他們感興趣的內容,會導致過濾器泡沫的出現,這些泡沫只會向人們展示增強其現有世界觀的內容。Chaslot 說道,他提出的修復措施中沒有一個被他的上級採納。「YouTube 有很多方法可以改變演算法來抑制虛假新聞,並改善人們看到的視頻的質量和多樣性,」他說。 「我試圖從內部改變 YouTube,但沒有奏效。」
之後,YouTube 和谷歌在演算法上的一些改變在 Chaslot 看來大多是表面化的,並沒有從根本上改變演算法中演變出的一些令人不安的偏見。2016 年,他開發了一款程序進行調查。
Chaslot 編寫了一款軟體,旨在為大家提供全球首個探究 YouTube 推薦引擎的窗口,該程序模擬用戶在觀看一個視頻後引發推薦視頻鏈,並跟蹤數據。
在過去的 18 個月中,Chaslot 利用該計劃探索法國、英國和德國選舉期間 YouTube 上推廣內容的偏差,全球變暖和大規模槍擊事件,並在他的網站 Algotransparency.org 上發布了他的調查結果。每項研究發現不同的東西,但研究表明 YouTube 系統性地誇大了有關分裂主義、聳人聽聞和陰謀詭計的視頻。
從目前該網站披露的項目來看,至少在 2016 年美國大選、拉斯維加斯槍擊案、德國大選等事件中,YouTube 演算法都發揮了重要的作用。
通過該網站的檢測,有助於我們更好地了解 YouTube 演算法帶來的影響,同時帶給我們關於機器學習演算法透明化的思考:從用戶的角度來看,演算法透明化是趨勢,也是有必要的,這就給破除「黑盒子」問題提出了更迫切的要求。
AI 前線曾在《史上最嚴苛數據保護法 5 月生效!》一文中講到了將於今年 5 月份生效的 GDPR,此規定中涉及機器學習的透明化問題,生效後將對一些研究機構和企業造成影響,也許會有利於解決演算法的「黑盒」問題。AI 前線也希望隨著 GDPR 生效帶來的影響力越來越大,推薦演算法將會更加透明,還用戶一個乾淨、健康的產品環境。
https://9to5google.com/2018/04/07/youtube-kids-update-whitelist-content/
https://www.qdaily.com/articles/51886.html
https://www.theguardian.com/technology/2018/feb/02/how-youtubes-algorithm-distorts-truth
https://www.technologyreview.com/s/610760/an-ex-google-engineer-is-scraping-youtube-to-pop-our-filter-bubbles/#
今日薦文


※一文看懂JeffDean等提出的ENAS到底好在哪?
※從熱門微博到自動駕駛,深度解析人工智慧四大案例
TAG:AI前線 |