「重複」內容識別：一場人類與機器間的智能競賽

新聞 03-05

有時候，人類與機器在判斷哪些內容屬於「重複內容」時會產生某些分歧。

機器學習與基於演算法的智能系統雖然擁有令人印象深刻的表現，但同時也缺少人類天然存在的一種能力：常識。

眾所周知，在多個頁面上放置相同的內容會產生重複內容。但是，如果我們打算在多個頁面內生成關於相似事物的內容，又會發生怎樣的情況?演算法會將其標記為「重複」，但人類則能夠輕鬆區分這些頁面：

-電子商務：具有多種變體或關鍵差異的類似產品。

-旅遊：酒店分店、目的地套餐、內容相似。

-分類：相同項目的詳盡清單。

-企業：本地分支機構的頁面，在不同地區提供相同的服務。

為什麼會出現這些問題?我們該如何發現此類問題?又應怎樣解決這些問題?

重複內容的風險

在用戶進行搜索時，重複內容會通過以下方式影響您的網站對用戶的可見性：

-因無意中存在相同關鍵詞而失去唯一匹配網頁的排名。

-由於谷歌只會選擇其中一個網頁作為規範化，因此無法對群組中的網頁進行排名。

-由於內容被嚴重簡化，因此失去網站權威性。

機器如何識別重複內容

谷歌公司利用多種演算法確定兩個頁面或者頁面中的多個部分是否存在內容重複，谷歌將根據相關結果將內容判定為「明顯相似」。

谷歌公司的相似性檢測基於其專利Simhash演算法。這種演算法能夠分析網頁當中的內容塊，而後將每個內容塊計算為唯一標識符，最終為各個頁面生成一個散列，或者稱為「指紋」。

由於網頁數量巨大，因此可擴展性至關重要。目前，Simhash是唯一可行的大規模重複內容查找方法。

Simhash指紋擁有以下特性：

-計算成本低廉。其以目標頁面的單一爬取結果為生成基礎。

-由於長度固定，因此不同指紋間易於比較。

-能夠找到具有高重複可能性的內容。與其它多種演算法不同，Simhash能夠將頁面上的微小變化體現為散列中的微小變化。

最後一點意味著任何兩個指紋之間的差異都可以通過演算法進行衡量，並表示為百分比形式。為了降低每個頁面的評估成本，谷歌公司採用了以下技術：

-聚類：將多組具有一定相似度的頁面分於同一群組。由於其它所有不同分類的指紋都已經被排除，因此只需要比較該群組內的指紋，即可得出相對正確的結論。

-評估：對於規模極為龐大的聚類，在計算一定數量的指紋之後利用平均相似性進行判斷。

「重複」內容識別：一場人類與機器間的智能競賽

比較頁面指紋。圖片來源：用於網路爬取的近重複文檔檢測(歸谷歌所有)

最後，谷歌方面利用加權相似率排除具有相同內容的特定內容塊(樣板：標題、導航、側邊欄、頁腳;免責聲明等)。其會考慮到頁面主題，並利用n-gram分析來確定頁面上出現頻率最高的詞語，同時結合站點上下文判斷這些詞語的重要性。

利用Simhash分析重複內容

我們將利用Simhash查看被標記為相似的內容聚類圖。此圖表來自OnCrawl，其中涵蓋了對重複內容聚類中重複內容策略的分析過程。

OnCrawl的內容分析還包括相似率、內容聚類以及n-gram分析。OnCrawl也在開發一款實驗性熱圖，希望直接覆蓋在網頁之上表示各個內容塊的相似性。

「重複」內容識別：一場人類與機器間的智能競賽

按內容相似性進行網站繪圖。其中每個塊代表具有類似內容的聚類，不同顏色則表示每個聚類間規範化化策略的一致性。資源來源：OnCrawl。

利用規範化進行聚類驗證

利用規範化URL指示一組相似頁面當中的主頁面，使得我們能夠主動對大量頁面進行聚類。在理想情況下，以規範化為基礎建立的聚類應該與由Simhash建立的聚類完全相同。

「重複」內容識別：一場人類與機器間的智能競賽

規範化聚類與相似性聚類(綠色部分)間的匹配結果。結論：有6頁內容為100%相似，這意味著您的規範化策略與谷歌的Simhash分析以同樣的方式對其進行處理。

如果結果與上圖不符，則通常意味著您的網站之上不存在規範化策略：

「重複」內容識別：一場人類與機器間的智能競賽

無規範化聲明：各個包含成百上千個頁面的聚類之間，擁有著99%到100%的平均相似度。谷歌公司可能會採用規範URL。您無法控制哪些頁面參與排名，哪些不參與。

或者，由於您的規範化策略與谷歌在類似內容的聚類處理方法之間存在衝突：

「重複」內容識別：一場人類與機器間的智能競賽

規範化問題：相似性超過80%且各聚類擁有多個標準URL的大型聚類。谷歌公司會強制使用自己的標準URL，或者將您希望保留的重複頁面索引排除在搜索索引之外。

您網站的聚類與以上聚類不同。您已經遵循了重複內容的最佳處理實踐，包含相同內容的URL(例如可列印/移動版本或CMS生成的備用網址)會聲明正確的規範URL。

「重複」內容識別：一場人類與機器間的智能競賽

在規範化處理後繪製出的相似性聚類。

過濾掉由規範化策略正確處理的重複內容。其餘的非規範化URL即為您希望進行排名的頁面。

「重複」內容識別：一場人類與機器間的智能競賽

以原有映射圖為基礎，移除已驗證(綠色)聚類以及相似性低於80%的聚類。其餘46個聚類中，大部分只包含2個頁面。

仍然出現在基於Simhash與語義分析聚類中的URL，即為您與谷歌認為存在重複問題的頁面。

解決唯一內容的內容重複問題

目前還沒有真正令人滿意的方法，能夠糾正機器對於看似重複、實則唯一頁面的錯誤判斷：我們無法改變谷歌識別重複內容的具體方式。但是，仍有一些解決方案能夠幫助我們與谷歌保持相同的唯一內容判斷結論……同時繼續根據您選定的關鍵詞進行排名。

以下是適合您網站的五種具體策略。

一、解決邊緣情況

首先查看邊緣情況，即具有極低或者極高相似率的聚類。

「重複」內容識別：一場人類與機器間的智能競賽

相似度低於20%：相似，但並非高度相似。您可以利用頁面中的不同錨文本鏈接聚類內的各頁面，從而通知谷歌將其視為不同的頁面。

「重複」內容識別：一場人類與機器間的智能競賽

最大相似度：找出潛在問題。您需要進一步豐富內容以區分不同頁面，或者將多個頁面合併為同一頁面。

二、減少facet數

如果您的重複頁面與facet相關，則可能存在索引問題。保留已經排名的facet，同時限制您允許谷歌進行索引的facet數量。

「重複」內容識別：一場人類與機器間的智能競賽

由基於可排名facet的相同頁面構成的聚類。資料來源：OnCrawl。

三、提升頁面唯一性

請記住：內容的微小差異亦會在Simhash指紋中產生細微的差別。您需要對頁面上的內容進行重大更改，而非做出小幅調整。

豐富頁面內容：

-向頁面內添加文本內容。

添加不同的圖像描述。
包含完整的客戶評論。(如果評論適用於多個頁面，請合併頁面!)
添加其它信息。
添加相關信息。

-使用不同的圖像。

-使用明顯不同的錨文本鏈接至不同頁面，並測試實際效果。

-減少相似頁面之間的共同源代碼量。

-提高頁面的語義密度。

增加與主題相關的詞語量，同時減少填充符。

「重複」內容識別：一場人類與機器間的智能競賽

四、創建排名引用頁面

如果無法豐富頁面內容，或者當前頁面不適合進行豐富，請考慮創建一個替代所有「重複」頁面的單一引用頁面。此策略的核心，是在符合內容主旨的前提下將從個關鍵詞融入同一主頁面，並將主頁面作為推廣載體。這種方法特別適合需要將多個版本的產品作為彼此獨立的單一頁面進行維護的情況。

這項策略還可用於創建針對性需求或者季節性業務的網頁。其可提供更為強大的語義與排名，從而改善頁面體系。

此策略還適用於廣告網站、招聘網站以及其它通常包含大量相似清單的網站。引用頁面應按單一特徵對各清單進行分組，在這方面位置(城市)是一類廣泛適用的分類指標。

「重複」內容識別：一場人類與機器間的智能競賽

如何操作：

1、創建一個引用頁面，彙集所有「重複」產品頁面的語義內容。其中應包含您所要使用的全部關鍵詞，並鏈接至所有「重複」頁面。

2、為引用頁面中的每個「重複」頁面設置標準URL，同時也為引用頁面自身設置標準URL。鏈接各「重複」頁面。

3、優化網站導航以推廣引用頁面。

4、立足「重複」頁面、規範化聲明以及組合內容對鏈接進行強化，從而降低引用頁面的排名難度。

五、合併頁面

您可能一直在利用相同的內容豐富頁面?您可能無法解釋為什麼要將其全部保留下來?要解決這個問題，頁面合併可能是最好的選擇。

「重複」內容識別：一場人類與機器間的智能競賽

如果您決定將多個頁面合併為一個：

-保留執行表現最佳的URL。

-將您正在移除的全部頁面重新定向(301)至您要保留的頁面。

-將您正在移除的全部頁面中的內容，添加至您決定保留並面向聚類中全部關鍵詞進行排名優化的頁面當中。

未來的重複內容處理方法

谷歌公司對頁面內容的理解能力正在不斷發展。隨著其樣本識別能力以及頁面意圖區分水平的不斷提升，將唯一內容錯認為重量內容的狀況終將成為歷史。

但在達到這樣的效果之前，大家仍然有必要思考自己的內容為何會被谷歌演算法視為重量內容，並想辦法說服演算法改變結論——這將成為相似頁面實現成功SEO的關鍵所在。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 科技行者 的精彩文章:

※高通驍龍X55來了，5G還會遠嗎
※為人工智慧和自動化革命做好準備的十種方法

TAG:科技行者 |