當前位置:
首頁 > 新聞 > 繼佩奇和布林的開山論文之後,谷歌團隊又有哪篇經典入了WWW大會的法眼?

繼佩奇和布林的開山論文之後,谷歌團隊又有哪篇經典入了WWW大會的法眼?

2017 年的The Seoul Test-of-Time Award 頒給了《Graph Structure in the Web》,這可謂是實至名歸。

雷鋒網了解到, Seoul Test-of-Time Award 是國際萬維網大會上特設的一個獎項,主要是為了表彰多年來對科學,技術或社會產生了重大影響的論文。

根據維基百科的介紹,在韓國首爾舉行的 WWW 2014 時,組委會決定在下一年的 WWW 大會上評選這一獎項,因而得名「The Seoul Test-of-Time Award 」。

《Graph Structure in the Web》這篇論文最初發表於 2000 年的第九屆 WWW 上,論文指出了「萬維網的圖表結構」,堪稱開創性研究。論文作者包括谷歌的 Andrei Broder, IBM 的 Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan 和 Andrew Tomkins,以及合作成員 Farzin Maghoul, Raymie Stata 和 Janet Wiener。

彼時,它已經在 WWW 大會上獲得了最佳論文獎,並在接下來的 17 年裡呈現它非凡的影響力,在 ACM Digital Library 上的累計引用次數超過 3500 次。

那麼這篇論文到底有何經典之處呢?雷鋒網了解到,本文對互聯網結構的研究做出了兩個重要的貢獻。

首先,它進行的大規模實驗,顯示 Web 節點是根據冪律分布的。也就是說,Web 的節點具有 i 個傳入鏈接的概率大致與 1/i2.1 成正比。

其次,與以前幾乎全連接的 Web 研究不同的是,論文描述的是一種更加複雜的網路結構,也就是如今非常標誌性的「弓箭」(bowtie)狀(如圖所示):

繼佩奇和布林的開山論文之後,谷歌團隊又有哪篇經典入了WWW大會的法眼?

作者提出了一個精簡的 Web 圖形模型,並描述了 Web 頁面的幾個特徵:


  • 強連接的核心組件:每個頁面都可以從任意其它頁面訪問;

  • IN/OUT 簇:也就是說,它只具有到核心或來自核心的單向路徑;

  • 兩簇之間以卷鬚(tendrils)連接,還有其它繞過核心與簇連接的通道,還有與其它部分完全隔絕的組件。

  • 核心組件是全連接的,每個節點都能從任何節點到達。

作者 Broder 等人發現,比起以往的研究,實際上 Web 的結構更加鬆散,而任何兩個給定頁面的互連概率少於 1/4。

有意思的是,這個 1999 年完成的研究是通過兩個 Altavista 爬蟲爬行了 2 億個頁面與 15 億個鏈接而得到的。而今天,谷歌僅僅在 App 里就需要索引超過 1000 億條連接,爬蟲需要處理超過 130 億個網址。

而 Broder 等人提出的 Web 宏觀結構為大量的爬蟲及搜索網路研究提供了堅實的數學基礎,也對現代搜索引擎架構產生了深遠影響。

值得一提的是,首屆「Seoul Test-of-Time Award」於 2015 年頒給了谷歌的創始人 Larry Page 和 Sergey Brin,以紀念他們在 1998 年第七屆 WWW 大會上發表的論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》。

這篇論文正是 Google 的孕育之地,兩人在論文中提及:

「我們選擇 Google 作為系統的名字,它是數學大數『googol』的常見的一個錯誤拼寫,即 10100,我們也希望能夠構建一個覆蓋海量信息的搜索系統」也就是說,WWW 大會實際上也是谷歌首度正式亮相的舞台。

Google 是一個大範圍搜索引擎原型,通駝有效地抓取及索引 Web 頁面,產生比現有系統更加令人滿意的搜索結果。設計一個搜索引擎在當時具有其必要性:

  • 網路頁面的大量增長讓用戶通常採用 Yahoo!這樣的上網導航網站,但存在的缺點在於網站的選擇具有主觀性,構建與維護網站需要大量成本,而且更新時效慢,也無法覆蓋「蘿蔔青菜,各有所愛」的大眾口味。

  • 而當時依賴關鍵詞的搜索引擎則有著良莠不齊的搜索結果,這也催生了 Larry Page 和 Sergey Brin 兩人想做一個更完善的搜索引擎的想法。

這篇論文提出了兩個重要的觀點:


  • 首先是在廉價的硬體上搭建一個分布式系統,以處理大規模指數;

  • 其次,他們使用了 Web 的超鏈接結構作為一種有效的關聯信號。

到如今,這兩個想法已經非常普及,而谷歌也成為了世界上最被廣泛使用的搜索引擎之一,而這篇論文所產生的學術影響卻依然存在:截至 2015 年,它的引用次數超過了 13000 次,而兩年之後的今天,雷鋒網了解到,這個數字達到了 15916 次。

想必所有人都不會想到,當年斯坦福大學的兩個學生,只是抱著構建「一個更令人滿意的搜索結果」系統的想法而開始研究,卻在這個過程中造就了一家世界巨頭公司。而如今雷鋒網所報道和覆蓋的每一篇論文,是否在未來也會成為力能扛鼎的學術經典?只有時間能給我們答案。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

深度 | 火爆之後回歸現實,聊天機器人要如何重回巔峰?
亞馬遜機器學習總監Alex Smola:TensorFlow、Caffe等已經存在,為何還需要MXNet?
DCM創投高健凱:未來十年底層科技趨勢和創業機會

TAG:雷鋒網 |

您可能感興趣

《延禧》過河拆橋,於正團隊暗諷佘詩曼「大馬臉」,這就開撕了?
猛龍何時開始白宮之旅?特朗普出面回應,納斯:我們是加拿大團隊
蒙奇D黃猿已垮了,迎來新團隊的崛起!網友:怎麼看都順眼!
新的團隊,新的開始
《夢在海這邊》開機,《江河水》原班團隊,《都挺好》的她挑大樑
騎士總經理:依然在和詹姆斯團隊開展對話
陳曉之後又一明星與於正鬧掰?團隊暗諷佘詩曼,網友:一出好戲!
網紅背後不為人知的團隊,當偶遇艾比之後,網友:原來都是假的
吳迪放大招,把自己和團隊最真實的一面展現給大家,浩南輸了!
庵野秀明和他的團隊,究竟想藉由EVA表達什麼?
這被稱為歷史上最牛團隊?看完後,網友:其實就是開的玩笑
海賊王:摩爾岡斯說和之國,神秘霸王色高手登場,不愧是五皇團隊
《聖歌》團隊更新博客,承諾玩家「最好的還在後面」
魔都新地標:上海大歌劇院要火!背後的設計團隊,是堪稱「魔鬼」的設計事務所!
海賊王:路飛會和羅傑一樣嗎,成為團隊最先去世的人
辰東巔峰之作《遮天》,張藝謀團隊,將開創中國首部大型仙俠劇!
《龍珠》悟空正義團隊中,拖後腿的三位強者,克林算是第一
《荒野求生》中的貝爺,他在的部隊很牛嗎?貝爺身後的團隊暴露了一切
《奇幻森林》《鋼鐵俠》團隊打造,這部最新大片絕對震撼你的眼球
戲耍馬刺和波波維奇,你開心了嗎?美媒體揭穿倫納德團隊的謊言