谷歌搜索歧視特朗普？全面拆解Google搜索演算法及優化

新聞 09-18

新智元AI WORLD 2018世界人工智慧峰會

倒計時2天

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會，南京大學計算機系主任、人工智慧學院院長周志華教授屆時將親臨會場做《關於機器學習的一點思考》主題演講。周志華教授是AI領域會士「大滿貫」得主，AAAI 2019程序主席、IJCAI 2021程序主席，《機器學習》一書的作者。

活動行購票二維碼：

新智元報道

來源：CNBC

編譯：大明，李靜怡

【新智元導讀】谷歌搜索演算法究竟是怎麼工作的？谷歌如何調整和改變其搜索演算法，依據的標準和進行的測試是怎樣的？為什麼谷歌不做搜索結果個性化？本文告訴你全部答案。

自特朗普總統指責谷歌操縱搜索結果以來，谷歌一直否認其搜索系統存在任何政治偏見。

儘管谷歌的個別員工在政治領域傾向於自由派，但沒有證據表明搜索引擎的結果故意偏向任何特定的意識形態。

監管機構和Yelp等競爭對手批評谷歌通過其他網站的信息增強自己的服務，如地圖，職位發布，商業評論和旅遊信息等。去年，歐盟對谷歌的購物搜索結果開出了27億美元的反托拉斯罰單，美國司法部副部長Jeff Sessions則公開調查包括谷歌在內的科技企業是否正在扼殺競爭。

為了揭開它如何運行其搜索引擎的神秘面紗，谷歌邀請CNBC參加了一個內部會議，會上搜索業務的主管們討論是否要進行一項變動：在某些搜索結果旁邊放上圖片。

提議的更改很小，而且非常具體，谷歌的這項更改決定是數據驅動的。會議表明了谷歌是如何實現搜索產品的巨大複雜性和漸進式簡潔的統一。

先來點基本知識：谷歌搜索的工作原理究竟是怎樣的？

人們有時會對Google搜索進行擬人化，認為搜索引擎「理解」了他們的查詢請求，比如用戶輸入「電影排球島」，Google返回了湯姆·漢克斯的電影《荒島求生》的相關結果。

但是，搜索引擎其實並不知道這些詞是什麼意思：而只是在搜索那些詞及其同義詞，甚至是常見的拼寫錯誤出現的頁面，以及和這些頁面相關度最高的頁面。

谷歌的程序（稱為網路抓取工具）會搜索互聯網，從數千億個網頁中收集信息。然後將這些數據存儲在一個巨大的、不斷變化的索引中，記錄信息的新鮮度和頁面創建位置等信號。當用戶在搜索欄中輸入內容時，會通過所謂Google搜索「演算法」的一系列規則和流程提供這些信息和信號。在此過程中，將用戶的查詢請求與索引中的信息進行比較，並確定出現在搜索結果頂部的頁面，這些過程都在幾分之一秒內完成。

20年前，谷歌剛剛成立時，其中一個搜索排名指標是PageRank，以谷歌聯合創始人拉里·佩奇的名字命名。PageRank根據有多少用戶鏈接到某頁面，判斷該頁面的與搜索內容相關性。也就是說，如果網上很多人發現一個頁面足夠有用，與其建立了鏈接，這個頁面就可能比大家都忽略的頁面的相關性更高。今天，PageRank仍然是Google演算法尚在使用的排名因素之一。

谷歌故意沒有透露排名系統的全部指標，部分原因是它不希望人們利用這些信息來玩弄搜索系統，因為出現在搜索頁面頂部可以帶來大量的流量和經濟利益。

對這些指標保密，也有助於谷歌領先潛在的競爭對手。

如何提升谷歌搜索排名？關注頁面的專業知識、權威性和可靠性

當谷歌考慮改變搜索的演算法時，會組建一個團隊對一小部分真實用戶進行測試，了解他們的搜索習慣，也會與名為「搜索質量評估者」的承包商團隊一起調查。

Google在全球範圍內約有10000名評估者，雖然他們無法直接影響搜索結果，但他們的意見有助於Google的搜索小組評估是否應該實施調整。評估者通常會同時查看新舊搜索結果，並確定哪個更好。

「更好」並不是一個純粹主觀的判斷。而是會由過去發布的搜索質量評估指南文檔來定義，該文檔描述評估者應如何判斷顯示在其結果中的頁面的好壞。文檔內容特別關注頁面的專業知識、權威性和可信賴性。

「你可以將評估指南中的內容視為我們希望搜索演算法的發展方向。」Google搜索、智能助理和新聞副總裁Ben Gomes表示。「他們雖然沒有告訴你演算法如何對結果進行排名，但從根本上說明了演算法應該做什麼。」

改不改，怎麼改？一切由數據驅動

谷歌在今年7月份對該指南進行了一些重大更改，其中包括要求評估者考慮頁面作者的聲譽。因此，作者不明的頁面現在可能被評為低質量頁面。

2017年，谷歌與其評估者共同進行了31584次實驗，並推出了2453次搜索規則更改。雖然這些更改會對任何給定網站的排名產生巨大影響，但普通谷歌搜索用戶通常根本不會注意到這些更改。

在CNBC本次受邀參加的會議中，測試團隊測試了一種新的移動搜索格式，在搜索結果旁邊顯示網頁上的照片及鏈接。他們假定這樣做可以幫助用戶更好地確定要點擊哪個鏈接，找到與搜索內容最相關的頁面。

最終評估數據顯示，91％的情況下，評估者發現展示圖像很有用。在實時實驗中，真實用戶也點擊了圖片。在權衡了增加圖片導致延遲增加與用戶體驗的正反饋之後，Gomes和Nayak批准了這次調整。

這次調整並沒有激烈的辯論或哲學上的探索，是數據推動了這一決定。

「對此我們有嚴格的測試過程，」 Gomes說。「我們的改動是數據指標驅動的，這是我們運營方式的核心。」

谷歌為什麼不做個性化搜索？

谷歌會傾聽用戶的反饋意見，包括一些由於結果錯誤導致的醜聞事件，比如用戶曾發現谷歌將白人至上主義網站鏈接為「大屠殺是否發生？」的第一個搜索結果。如果出現明顯問題，谷歌不僅要去掉糟糕的搜索結果。更常見的情況是，谷歌要試圖弄清楚如何更改其演算法及其評估指南，以避免類似的錯誤。

通過不對搜索結果進行個性化，谷歌擺脫了大部分Facebook和Twitter所遭受的批評——創建「過濾圈」（filter bubbles），也即用戶只看到他們原本就傾向於相信或喜歡的信息。（谷歌的視頻產品YouTube則無法躲開這種批評，尤其是它對於相關視頻的推薦演算法。這兩種演算法是完全獨立的，不是由同一個團隊創建或維護。）

個性化也可能導致人們對谷歌失去信任。雖然谷歌沒有對其大部分搜索排名進行個性化，但由於其收集的大量數據（Google允許用戶關於其收集的數據管理進行隱私設置，但其方法在過去一直存在誤導性），其廣告非常個性化。

對於所有用戶測試，谷歌知道錯誤不可避免，有時是因為有人故意破壞，有時是則是因為演算法存在問題，還有的時候是因為結果反映了社會偏見。

「我們並不認為搜索是完美的，」Nayak說：「但我們絕對致力於應對我們所面臨的挑戰並繼續改進。這就是人們在這裡做的事情。」

其他時候，演算法更改的想法來自公司內部的廣泛意見。 Nahak表示，一些員工長期以來一直認為谷歌搜索結果應該更加個性化。目前，谷歌搜索個性化的內容很少，現有的搜索重點是用戶的位置或先前搜索的直接上下文。（例如，如果你搜索了與棒球有關的東西，然後是「巨人隊」，那麼結果就不會影響到足球隊。）

https://www.cnbc.com/2018/09/17/google-tests-changes-to-its-search-algorithm-how-search-works.html

新智元AI WORLD 2018世界人工智慧峰會

倒計時2天

門票已開售！

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會，邀請機器學習教父、CMU教授 Tom Mitchell，邁克思·泰格馬克，周志華，陶大程，陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網：

http://www.aiworld2018.com/

活動行購票鏈接：

http://www.huodongxing.com/event/6449053775000

活動行購票二維碼：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※GAN如此簡單的PyTorch實現，一張臉生成72種表情（附代碼）
※特朗普對中國半導體加征關稅，英特爾、高通等5大美晶元股危險

TAG:新智元 |