關於採集站採集文章更新維護的一些問答
從2013年開始,百度演算法就被升級多次,其中尤為原創星火計劃讓人們開始知道了百度已經開始在強抓狠抓站長要搞好網站的原創工作。這一度讓無數站長感到震驚,因為原創的內容對於不少草根站長來說是一項非常難以完成的任務,只有那些有著豐富的編輯資源才有可能解決原創問題,對於草根站長們來說,可沒有這麼多錢的投入,所以在互聯網上出現了一致的哀嘆之聲。
不過我卻在百度推出原創星火計劃之後,並沒有發現那些全部搞原創的網站就能夠活得很自然,網站的排名就會靠前,網站內容的收錄數量就會增多。相反一些依然靠著採集內容的老站卻同樣過得非常舒心,網站的排名依然不錯,那麼是不是表明百度演算法中的原創星火計劃失效呢?當然我們也發現的那些原創內容沒有被收錄也大多出現在剛上線的新站群體中,所以質疑百度演算法似乎還為時過早了點。
我認為之所以出現新站原創不收錄,而老站採集也有排名的現象並不會隨著百度智能化水平的提升就會徹底解決,因為這涉及到演算法的核心內容,下面我就藉助馬海祥博客來分享一下關於採集站靠採集文章更新維護的一些問答。
1、原創好?還是採集好?
當然是原創好,因為百度是這麼說的,誰叫人家是裁判。
可為什麼原創了很多文章,還是不收錄?收錄了沒排名?
一個搜索引擎,它的核心價值是要為用戶提供他/她最需要的結果。搜索引擎是有統計網民需求的,對於網民需求量小或者幾乎沒有需求的內容,即使你是原創也可能被搜索引擎忽略,因為它不想浪費資源在無意義的內容上。
對網民需求量大的內容,收錄應該會比較多、比較快,但是,正因為收錄多,即使你是原創,也可能很難擠進排名。
2、既然原創好,為什麼要採集?
(1)、雖然原創好,但只要方法適當,採集的效果並不會比原創差多少,甚至比沒掌握到方法的那些原創好很多(具體可查看馬海祥博客《原創內容就一定是優質內容嗎》的相關介紹)。
(2)、精力有限,原創很難保證長期大量更新,如果請個編輯,投入產出比可能是負數。
3、收錄和索引到底什麼關係?
收錄表示蜘蛛來抓取過、分析過。索引表示蜘蛛分析之後,認為內容有一定價值。
只有進入索引的內容才有可能出現在搜索結果中,展現給用戶。也就是說只有索引的內容才有機會帶來流量。
4、市面上採集器那麼多,應該用哪個好?
每個採集器都有它的獨特之處,所謂存在即合理。請根據自己的需求來選擇即可。我的採集器是自己開發的,開發的過程中考慮了以下幾方面,使用其他採集器的也可作參考:
(1)、直接提供已分類的海量關鍵詞,這些關鍵詞都是百度已經統計的有網民需求的詞(有百度指數),或者是這些詞的長尾詞,來自百度下拉框或相關搜索。
(2)、直接按關鍵詞採集,智能分析網頁正文進行抓取,不需要自己寫採集規則。
(3)、抓取到的正文經過規範的標籤清理,段落全部以標籤呈現,亂碼一律去除。
(4)、根據採集到的內容自動配圖,圖片一定是與該內容相關度非常高的。以這種方式代替偽原創,既不影響可讀性,又使文章圖文並茂,做到比原創所提供的信息更豐富。
(5)、正文內容中的關鍵詞自動加粗,也可自定義要插入的關鍵詞。但沒有做句子重排、段落重排等影響可讀性的所謂「偽原創」功能。
(6)、可直接使用關鍵詞和其相關片語合作為標題,也可抓取目標網頁標題。
(7)、可進行微信文章採集。
(8)、不用觸發或者掛機。
(9)、集成百度站長平台主動推送,加快收錄。
5、不同的網站程序,比如織夢、WordPress、dz、zblog、帝國cms或者其他,對SEO有什麼影響?
理論上沒有影響。因為搜索引擎並不知道你是什麼程序,或者它可以通過一些規則識別出來,也不可能因為程序本身的不同而影響它的判斷。
那什麼會影響SEO呢?答案是模板。因為基本上這些程序都有模板機制,同樣程序可以輸出不同的頁面,不同的程序也可以輸出同樣的頁面,這就是模板。模板確定之後,你的每一個頁面就按照這個框架來輸出,也就是整個html結構已經確定。而這些html,正是搜索引擎要重點關注的,它得從這些html中得到它想要的信息。因此,一套好的模板非常重要。
6、採集站的模板設計應該注意哪些細節?
(1)、權重結構順序。整個頁面的html中(注意是html,而不是顯示出來的版面),越靠前的位置,權重越高。由此引申出來,「title」、keyword、description三個標籤,因為最靠前,權重最高。其次通常是導航,也是基本上是最靠上的,權重也非常高。再次就是文章標題和正文。這是根據html的前後來排序的。
(2)、因為搜索引擎首先要遵循W3C標準,所以,W3C定義的一些本來就是用來表示重要信息的標籤,權重自然就高,比如,特別是h1,用來表示當前頁面最重要的信息,一般每個頁面只能有一個,其權重估計與title相當,也通常是用來放當前頁面的標題,當然也有為了提高首頁權重,用h1來放置logo或首頁鏈接,都是可以的。另外還有em、strong這樣的標籤,用來表示強調,一般認為strong權重高於標籤,同樣也是加粗作用,但我們認為從SEO的角度看是沒有權重加強的。
(3)、css或者js代碼對搜索引擎來說通常是無意義的,盡量使用單獨的文件來存放,或者在允許的情況下放到html尾部。
7、採集站結構規劃應該注意哪些問題?
(1)、URL設計。URL也是可以包含關鍵詞的,比如你的網站是關於電腦的,你的URL中可以包含「PC」,因為它在搜索引擎眼裡通常是「電腦」的同義詞。URL不要太長,層次盡量不要超過4層,這個就點到為止。
(2)、欄目設計。欄目通常是與導航相關聯的,設計時應該考慮網站整體的主題,用戶可能會對哪些內容感興趣,欄目名稱最好是網站的幾個主關鍵詞,這樣也方便利用導航的權重。
(3)、關鍵詞布局。理論上每一個內容頁都應該有它的核心關鍵詞,同一個欄目下的文章,儘可能圍繞欄目關鍵詞展開,馬海祥提供大家一個簡單粗暴的辦法就是直接用欄目關鍵詞的長尾詞。
8、動態、偽靜態、靜態,這三者哪個好?
這個不能一概而論,推薦使用偽靜態或靜態。這三者的區別,是是否生成靜態文件,以及URL格式是否動態。生成靜態文件,本質上是為了加快訪問速度,減少資料庫查詢,但會不斷增加佔用空間;偽靜態只是通過URL重寫修改URL,實際上還是每次都要經過程序運算、查詢資料庫再輸出頁面,對加快訪問速度完全無效。動態與偽靜態的差異只在於URL,帶問號加參數。
所以關注兩個點就好:網站打開速度是否夠快?你是否需要節約伺服器空間?
不同的網站程序,資料庫操作的效率可能不同。一般來講,內容頁數量在1萬以內的,頁面打開速度都是比較快的,數據量更大一些,達到5萬、十萬甚至更多,通常就要考慮靜態化了(具體可查看馬海祥博客《wordpress程序在win和Linux系統下的偽靜態設置方法技巧》的相關介紹)。
9、有哪些途徑改善訪問速度?
(1)、上面已經說到的靜態化。
(2)、通常很多網站模板中都有隨機調用文章或者類似的版塊,事實上對資料庫來說,隨機是一項比較重的負擔,在模板中應該盡量減少隨機文章的調用。如果不可避免,可以考慮從資料庫上優化,對有索引的欄位排序通常比沒有索引要快很多。
(3)、將圖片、js、css等不經常修改的文件,放到專用的靜態伺服器上,多個js、或者多個css能合併的盡量合併到一個文件,減少http連接次數。
(4)、使用各類雲加速產品。對普通網站來說,免費的百度雲加速或者360的雲加速都還可以。
10、文章比較多,網站已經開啟靜態,但是每次全站更新都要花很長時間怎麼辦?
我的做法是使用緩存機制,這裡只提供一個思路,可能需要自己二次開發。
網站設定為偽靜態,每一個請求到達時,程序檢查是否存在對應的緩存html文件,如果該文件的生成時間是多少小時或幾天以前,我們判定它需要更新,這時候執行正常流程,程序查詢資料庫,生成html後,寫入到緩存文件,再輸出到客戶端。
當下一次訪問到達時,比如1分鐘以後又來一個訪問相同頁面,再次檢查緩存文件時間。從時間上可以判斷文件非常新,完全不用更新,則直接讀取文件內容輸出到客戶端。這樣每個頁面都可以實現自動生成,也只有第一個訪客會感受到速度慢,後面的訪客訪問時都相當於是靜態訪問,速度是非常快的。
如果是獨立伺服器,還可以考慮自動檢測伺服器負載,如果負載本來就高,那就算判斷出來需要更新,也暫時不更新,改為直接輸出。
11、圖片是引用遠程網址好還是放在自己伺服器好?
這個也是各有優劣。引用遠程網址,可以節約自己的帶寬,但很可能會因為對方伺服器緩慢、或刪除資源、或防盜鏈,圖片無法顯示。
如果下載到自己伺服器,當然一切都自己掌控,但是圖片會非常佔用空間,總體上可能比生成靜態所佔的空間更大,而且如果訪問量大,圖片是最吃帶寬的。
12、採集站內鏈應該怎樣優化?
內鏈是百度官方推薦的優化手段之一,所以這是一定要做的。通常表現的形式是正文中出現某個關鍵詞,給這個關鍵詞加上一個鏈接,指向另一個正好是這個關鍵詞相關內容的頁面。因此就誕生了一些所謂的優化手法,強行在正文中插入一些關鍵詞和鏈接,以此進行類似互推的操作。
還有的為了提高首頁權重,到處都放上網站名稱,並做上首頁鏈接,以為這樣可以提高目標頁面的權重。但是這些很可能都是適得其反,因為搜索引擎會統計每個鏈接的點擊率。如果放在醒目位置點擊卻很少的鏈接,有可能會判斷為作弊。所以,請只在正文中本來就有的關鍵詞上做內鏈,就可以了。
13、段落重排、句子重排、同義詞替換這些偽原創手法到底好不好?
不好。因為搜索引擎已經智能,已經不是簡單的資料庫檢索,它會自然語義分析,凡是語義解析比較困難的句子或者段落,它是可以判斷為可讀性差的,所以我認為這些「偽原創」可能是自作聰明。
14、評論模塊基本上沒有人用,該要還是不要?
要。評論模塊最頭疼是事情是垃圾評論,通常真正發言的訪客很少,垃圾評論一大堆,整天和營銷軟體鬥智斗勇。這裡提供一個我已經實現的方案,對收錄可能有一定幫助(沒有依據的,只是猜測):
保留評論框、但禁止評論。所有評論由自己的網站程序生成。前面提到搜索引擎會自然語義分析,其中有一項重要的能力,就是情感判斷。搜索引擎會計算每條評論的情感值,是positive(積極)還是negative(消極),具體傾向是10%還是90%。如果評論內容表達的是積極情感,則可以給你的正文加分,反之則減分。至於怎樣自動生成積極的評論,就八仙過海各顯神通吧。
這是在網路社交發展起來後的必然趨勢,用這種方式來反映一個頁面的用戶體驗度。同理還有分享、點贊等,原理類似。
15、綠蘿演算法之後,外鏈到底還有沒有用?
有用。參見搜索引擎三定律之相關性定律。既然是定律,就不會改變。誰的內容被引用得多,誰就是權威。在主動推送出現之前,外鏈應該算是蜘蛛認識一個頁面內容的第一渠道(具體可查看馬海祥博客《網站的站外SEO優化為什麼要做外鏈》的相關介紹)。
16、外鏈一定要錨文本或者裸鏈嗎?
不是。搜索引擎肩負重任,要努力發現真正有價值的東西,排除那些沒價值的東西。所以有可能你直接提交的鏈接沒收錄,在別人地方隨便發個純文本網址,被它發現了,還計算了加分。
除了錨文本和裸鏈,還可以用關鍵詞+網址的形式發純文本。這樣在網址前面的那個關鍵詞是會自動與該網址關聯的。
還有,有些鏈接雖然加了nofollow屬性,但是在百度計算外鏈的時候,還是會計算的。
17、採集站需要做外鏈嗎?
外鏈有沒有效果,當然有,如果外鏈沒有效果,百度推出外鏈查詢工具做什麼,外鏈為什麼要購買,第一發外鏈的地方少了,第二發外鏈的成本大了,所以直接購買外鏈來增加網站收錄和排名,很多朋友又說購買外鏈會導致網站K站,我可以肯定回答你,不會K站,如果會K站,你直接把你競爭對手搞死。
另外,外鏈鏈接的方式也非常重要,首先採集站大多數是用文章排名的,所以我們購買的外鏈一樣要鏈接到文章頁面,並且按照前面的規矩做,每篇文章都有一個關鍵詞,那麼這就是外鏈的錨文本了。如果全部連接到首頁,而首頁沒有關鍵詞,這就沒什麼意義了。
18、搜索引擎統計網民需求以什麼來標識?
關鍵詞。每一個人搜索一個關鍵詞時,就表明他/她對這個詞相關的內容有需求。而且,使用搜索引擎的人,通常是有問答需求、檢索查詢需求。當然搜索引擎內部肯定有非常龐大的分析系統,對這些需求進行精確的定位,詳見百度指數。
比如搜索的關鍵詞是「手機」,很有可能是想要買手機或者查某款的價格,也可能只是想要下載漂亮的壁紙。但是,如果是想要壁紙,就會有更精確的關鍵詞「手機壁紙」,以下拉框或者相關搜索的形式呈現出來。
19、自己網站上原創的精選文章老是被其他站長採集,怎麼辦?
比如說,有個網站天天來採集我的博客網站上的原創文章,結果全讓他收錄了,我自己網站卻沒收錄,怎麼辦呢?對此,我也分享幾個解決方法:
(1)、聯繫對方站長,讓其停止採集行為,這個直接些,有時候我們也經常是直接給對方站長打電話。
(2)、既然是原創文章,那麼文章中可以多加一些自己站內不同形式專有的名詞或者特徵文字或網址等,盡量讓他沒辦法直接通過採集程序替換掉這些文字或網址。
(3)、改模板了:採集也無非針對你頁面特徵布局了,可以直接在模板的不同地方加上不同的標籤屬性,如原來的內容部分標籤為
他分析內容時可能就是用這個來界定,如果是,那麼直接改下如
即在不破壞原有CSS的情況下破壞原有界定符,那麼他就行重新製作採集規則了,當然也可直接整體改版(自己從採集者的角度來分析你自己的模塊結構,然後針對性的作些修改)。
(4)、通過程序限制了,直接在PHP或者ASP中限制單IP單次連接次數等(具體可查看馬海祥博客《有效防止文章被複制採集的方法技巧》的相關介紹)。
(5)、屏蔽他的IP,但是他還是可以通過代理伺服器訪問,也可以本地採集。
20、原創不收錄,採集的文章排名卻很好,是怎麼回事?
首先對於新站來說,百度雖然能夠在新站提交相應的申請之後會進行收錄,但是並不表明你的網站就一定會是高質量的網站,而是將這些網站收入到百度的考察沙盒中,如果這些網站的原創水平能夠一直保持,那麼這個新站在百度沙盒所呆的時間就會越短,而新站在百度沙盒的期間就算是被百度收錄,也不會從搜索結果中釋放出來,這就給廣大站長朋友們造成新站的原創竟然還沒有被收錄的假象,實際上隨著網站的持續運營,而且原創內容的有序增加,同時也保障了原創的質量,那麼這些原創的內容會隨著網站走出沙盒而被一道收錄的。
而對於那些通過採集竟然就能夠獲得排名的老站,似乎同樣和百度的原創星火計劃格格不入,因為採集給百度搜索引擎蜘蛛的印象就好像互聯網的寄生蟲,依靠別人的創作而獲得利益,所以百度搜索引擎對於這方面的網站打擊的都比較厲害。
可是對於一些老網站而言,他們的採集更注重一些方法,並沒有隨意改變原作者的信息,同時還保留了他們的信息,而且這些採集的內容對於網站本身來說都有極高的相關性,而且能夠得到廣大用戶的喜歡,比如很多採集的內容也能夠獲得巨大的瀏覽量,因為在互聯網的世界中,搜索引擎也要尊重分享精神,從某種意義上來說採集的內容也是一種對別人的分享,只要你做出來版權的說明。
當然這些老站除了在採集上有了很多的限制之外,同時還在外鏈建設以及其他網站的推薦方面做了很多工作,所以這些網站就已經構成了現在知名的平台,所以這些網站上的內容具有進一步擴撒用戶範圍的作用,所以這些老網站就算是進行了內容採集,但是也並不影響其排名(具體可查看馬海祥博客《採集的文章內容該如何快速收錄和排名》的相關介紹)。
所以說當出現原創新站不收錄,而老站就算是有一定的採集內容,同樣也能夠獲得不錯的排名,對於這種現象的存在反而說明了百度演算法的智能化,對於任何的規定都沒有搞一刀切,所以體現了一種互聯網精神。
馬海祥博客點評:
轉載和採集,分流了優質原創站點的流量,不再具屬原創作者的名稱,會直接影響到優質原創站長和作者的收益。長期看會影響原創者的積極性,不利於創新,不利於新的優質內容產生。鼓勵優質原創,鼓勵創新,給予原創站點和作者合理的流量,從而促進互聯網內容的繁榮,理應是搜索引擎的一個重要任務。


TAG:馬海祥博客 |