當前位置:
首頁 > 最新 > 搜索引擎如何爬行和索引

搜索引擎如何爬行和索引

前言: 進行網站優化,必須首先了解搜索引擎是如何工作的,就像你想要出版一部偉大的小說,要首先學習如何寫作一樣。

雖說無數猴子在無數打字機上持續不斷的隨機打字,那麼最終在某個時候總能寫出一些有用的東西(無限猴子定理),但是如果我們在做任務前能首先抓住任務的核心要素,那麼我們可以節省很多精力。

所以我們在進行網站的搜索引擎優化前必須充分理解搜索引擎是如何工作的。

雖然我們主要研究Organic Search(關鍵詞自然搜索),但我們還是有必要先簡要討論一下關於搜索引擎的一個重要事實。

1

付 費 搜 索 結 果

不論是Google,還是Bing,或是其他主流搜索引擎,提供自然搜索結果都不在他們的商業意圖內。

也就是說,雖然自然搜索結果是最終實際的搜索結果,但他並沒能給Google帶來直接的收益。

如果沒有自然搜索結果的存在,Google的付費搜索結果就沒有那麼重要,那麼吸引眼球了,付費點擊量也會下降。

基本上,Google和Bing(以及其他的搜索引擎)都可以說是廣告引擎,它們會碰巧把用戶引導到他們的自然搜索結果中。因此,我們網站優化的最終目的是自然搜索結果排名。

2

自 然 搜 索 結 果 為 何 如 此 重 要

自然搜索的重要性在於:搜索引擎搜索結果的布局在變化。

搜索引擎存在一些擴展功能,比如:Knowledge Panels(知識面板),Featured Snippets(精選摘要)等;自然搜索有一定相當可觀的點擊率。

Google在有商業意圖的查詢中推出了第四種付費搜索結果,又推出了不用離開Google.com頁面直接在搜索結果頁面就能獲取查詢問題答案的特色功能……這些功能的推出都是因為自然搜索結果的存在。

不管你看到Google有什麼變化,請記住重要的一點:不要只看它會對目前會產生什麼影響,而是要看它有什麼長遠影響

既然我們已經了解了為什麼Google會提供自然搜索結果,那我們來看看它是如何運作的。為了弄明白這一點,我們需要研究:爬行和索引;排序演算法;機器學習;用戶搜索意圖等。本文著重於索引,下面讓我們來一探究竟……

3

索 引

索引是我們研究搜索引擎問題的起點。

對於那些不怎麼了解搜索引擎的人,索引簡單點來講就是指將網頁內容添加到Google中。

當你在網站上創建一個新的頁面時,有許多方法可以讓網頁被索引。

讓網頁被索引的最簡單方法是什麼都不做。

Google有爬蟲跟蹤鏈接,因此,如果你已經把站點提交給Google索引,並且新內容是鏈接到你的站點的,Google最終都會發現它並將它添加到索引庫中。後面我們再詳細介紹。

如果你想讓Googlebot(谷歌蜘蛛)更快地進入你的網站頁面,該怎麼辦呢?

有一點非常重要:你要有比較時新的內容,你要讓Google知道你對一個網頁進行了比較重要的修改。

這也是當我們優化了網站一個很重要的頁面,或是調整了網頁標題和描述來提升點擊率,或是為了探索網頁何時被搜索引擎選中並出現在搜索結果頁面中時,讓谷歌蜘蛛更快索引網站的一個很重要的原因。

想讓Googlebot(谷歌蜘蛛)更快地爬行和索引網頁,還可以採用以下幾種方法:

1、XML Sitemaps

基本上,XML Sitemaps是通過Google Search Console(谷歌站長工具)提交給Google的站點地圖。

XML站點地圖為搜索引擎提供了站點上所有頁面的列表,以及其他的一些附加細節比如XML Sitemaps最後一次的修改。

這種方法絕對值得推薦!

但是,如果你需要搜索引擎立即爬行和索引頁面呢?這一方法又並不那麼可靠了。

2、Google抓取工具

在Google Search Console中,你可以使用Fetch as Google(谷歌抓取工具)。

在左邊的導航欄中,只需點擊Crawl(抓取)> Fetch as Google(谷歌抓取工具)。

輸入你想要索引的URL,然後單擊Fetch(抓取)。

在獲取你的URL之後,你將會看到「請求索引」的選項。

點擊這一選項按鈕。

通常在幾秒鐘到幾分鐘內,你可以在Google中搜索新提交的內容或URL,並發現更改的新內容已經被收錄。

3、向Google提交URL

如果懶得去登錄Google Search Console,或者想讓網站新內容在第三方網站上快速更新?那就直接Google一下吧。

只需簡單的在Google搜索框里輸入【Submit URL to Google】,你將會得到一個URL欄位的提交框。

這就像是通過搜索控制台一樣快速地提交網頁。

在Bing中,你同樣可以這樣操做。

4、Google Plus(Google+, G+)

Google+是一個SNS社交網站,可以通過Google帳戶登錄,在這個社交網站上可以和不同興趣的好友分享好玩的東西。於2011年6月28日亮相,現在仍處於測試階段。

將一個新的URL發布到Google+,幾秒鐘內你就會看到它已經被索引。

Google必須通過抓取URL來獲取圖片、描述等信息,通過讀取這些信息來判斷網頁是否已經被索引。

這可能是讓Google索引內容排名第二快的方法。至於最快的方法,還有待研究……

5、在Google上託管網站內容

Google爬行站點、索引網頁需要一個時間過程。其中一種方法是直接將網站內容託管給Google。

託管內容有幾種不同的方式,但是我們大多數人沒有採用這些技術和方法,而且Google也沒有向我們推薦這些方法。

我們允許Google通過XML feeds文件, APIs介面等可以直接訪問網站內容,提取信息,其實就已經在把網站託管給Google了。

Firebase,Google的移動應用平台,在不需要抓取任何信息的情況下就可以直接訪問應用程序的內容。

這是未來的一個趨勢:讓Google輕鬆快速的索引網站內容,從而讓搜索引擎可以更多的在技術層面上為網站提供服務。

4

爬 行 預 算

我們討論索引,不能不說爬行預算。

爬行預算可以理解為搜索引擎蜘蛛花在一個網站上抓取頁面的總的時間上限。

預算的份額是受多方面因素影響的,有兩點是十分重要的:

1、網站伺服器反應速度有多快

就是說在不影響用戶訪問體驗的情況下谷歌蜘蛛能抓取網站網頁的最快速度,搜索引擎蜘蛛不會為了抓取更多頁面,把網站伺服器拖垮,所以對某個網站都會設定一個網頁抓取速度的上限,也就是伺服器能承受的上限,在這個速度限制內,搜索引擎蜘蛛抓取不會拖慢伺服器、影響用戶訪問。抓取速度限制會影響搜索引擎能夠抓取的網頁數。伺服器反應速度下降,抓取速度限制跟著下降,抓取減慢,甚至停止抓取。

2、網站的重要性(可以理解為網站的權重)

如果你在運營一個大型的新聞站點,持續不斷的更新搜索用戶想要了解的信息,那麼你的站點被抓取和索引的頻率就會很高(這一點我敢保證!)。

如果你運營一個小型站點,有幾十個鏈接,在這種情況下,你的網站就不會被Google認為是重要的(你可能在某個領域很重要,但當涉及到爬行預算的話就顯得不那麼重要了),那麼爬行預算就會很低。

小網站頁面數少,即使網站權重再低,伺服器再慢,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓個幾百頁,十幾天怎麼也會把全站抓取一遍了。

(編譯/全球搜 曉風)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球搜Globalso 的精彩文章:

Google手機端搜索結果將採用無限滾動功能,首頁搜索排名或將重新洗牌?
Google將為付費用戶在搜索結果中增加新內容

TAG:全球搜Globalso |