基於htmlparser實現網頁內容解析

知識 07-22

網頁解析，即程序自動分析網頁內容、獲取信息，從而進一步處理信息。

網頁解析是實現網路爬蟲中不可缺少而且十分重要的一環.。

首先，必須說在最前的是我們使用的工具——htmlparser

簡要地說，htmlparser包提供方便、簡潔的處理html文件的方法，它將html頁面中的標籤按樹形結構解析成一個一個結點，一種類型的結點對應一個類，通過調用其方法可以輕鬆地訪問標籤中的內容。

我所使用的是htmlparser2.0，也就是最新版本。強烈推薦。

對於主題爬蟲，它的功能就是將與主題相關的網頁下載到本地，將網頁的相關信息存入資料庫。

網頁解析模塊要實現兩大功能：1.從頁面中提取出子鏈接，加入到爬取url隊列中；2.解析網頁內容，與主題進行相關度計算。

由於網頁內容解析需要頻繁地訪問網頁文件，如果通過url訪問網路獲取文件的時間開銷比較大，所以我們的做法是將爬取隊列中的網頁統統下載到本地，對本地的網頁文件進行頁面內容解析，最後刪除不匹配的網頁。而子鏈接的提取比較簡單，通過網路獲取頁面文件即可。對於給定url通過網路訪問網頁，和給定文件路徑訪問本地網頁文件，htmlparser都是支持的！

1.子鏈接的提取：

做頁面子鏈接提取的基本思路是：

1.用被提取的網頁的url實例化一個Parser

2.實例化Filter，設置頁面過濾條件——只獲取<a>標籤與<frame>標籤的內容

3.用Parser提取頁面中所有通過Filter的結點，得到NodeList

4.遍歷NodeList，調用Node的相應方法得到其中的鏈接，加入子鏈接的集合

5.返回子鏈接集合

package Crawler;

import java.util.HashSet;

import java.util.Set;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.filters.OrFilter;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

public class HtmlLinkParser {

//獲取子鏈接，url為網頁url，filter是鏈接過濾器，返回該頁面子鏈接的HashSet

public static Set<String> extracLinks(String url, LinkFilter filter) {

Set<String> links = new HashSet<String>();

try {

Parser parser = new Parser(url);

parser.setEncoding("utf-8");

// 過濾 <frame >標籤的 filter，用來提取 frame 標籤里的 src 屬性所表示的鏈接

NodeFilter frameFilter = new NodeFilter() {

public boolean accept(Node node) {

if (node.getText().startsWith("frame src=")) {

return true;

} else {

return false;

}

};

// OrFilter 接受<a>標籤或<frame>標籤，注意NodeClassFilter()可用來過濾一類標籤，linkTag對應<標籤>

OrFilter linkFilter = new OrFilter(new NodeClassFilter(

LinkTag.class), frameFilter);

// 得到所有經過過濾的標籤，結果為NodeList

NodeList list = parser.extractAllNodesThatMatch(linkFilter);

for (int i = 0; i < list.size(); i++) {

Node tag = list.elementAt(i);

if (tag instanceof LinkTag)// <a> 標籤

{

LinkTag link = (LinkTag) tag;

String linkUrl = link.getLink();// 調用getLink()方法得到<a>標籤中的鏈接

if (filter.accept(linkUrl))//將符合filter過濾條件的鏈接加入鏈接表

links.add(linkUrl);

} else{// <frame> 標籤

// 提取 frame 里 src 屬性的鏈接如 <frame src="test.html"/>

String frame = tag.getText();

int start = frame.indexOf("src=");

frame = frame.substring(start);

int end = frame.indexOf(" ");

if (end == -1)

end = frame.indexOf(">");

String frameUrl = frame.substring(5, end - 1);

if (filter.accept(frameUrl))

links.add(frameUrl);

}

} catch (ParserException e) {//捕捉parser的異常

e.printStackTrace();

}

return links;

}

Parser是需要設置編碼的，在這段程序中我直接設置為utf-8。實際上網頁的編碼方式是多種多樣的，在<meta>標籤中有關於編碼方式的信息，如果編碼不正確，頁面的文本內容可能是亂碼。不過，在子鏈接提取的部分，我們僅對標籤內部的內容進行處理，這些內容是根據html語法編寫的，不涉及編碼的問題。

2.解析網頁內容：

基本思路：

1.讀取html文件，獲得頁面編碼，獲得String格式的文件內容

2.用頁面編碼實例化html文件的Parser

3.對需要提取的結點設置相應的Filter

4.根據給定的Filter，用Parser解析html文件

5.提取結點中的文本內容，進行處理（本例中是關鍵字匹配，計算主題相關度）

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.htmlparser.Parser;

import org.htmlparser.filters.NodeClassFilter;

import org.htmlparser.tags.HeadingTag;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.tags.MetaTag;

import org.htmlparser.tags.ParagraphTag;

import org.htmlparser.tags.TitleTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

import java.util.Set;

import multi.patt.match.ac.*;

public class HtmlFileParser {

String filepath=new String();//html文件路徑

private static String[] keyWords;//關鍵詞列表

/*static{

keyWords=read("filePath");//從指定文件中讀取關鍵詞列表

}*/

public HtmlFileParser(String filepath){

this.filepath=filepath;

}

public String getTitle(){//得到頁面標題

FileAndEnc fae=readHtmlFile();

int i=0;

try{

//實例化一個本地html文件的Parser

Parser titleParser = Parser.createParser(fae.getFile(),fae.getEnc());

NodeClassFilter titleFilter =new NodeClassFilter(TitleTag.class);

NodeList titleList = titleParser.extractAllNodesThatMatch(titleFilter);

//實際上一個網頁應該只有一個<title>標籤，但extractAllNodesThatMatch方法返回的只能是一個NodeList

for (i = 0; i < titleList.size(); i++) {

TitleTag title_tag = (TitleTag) titleList.elementAt(i);

return title_tag.getTitle();

}

}catch(ParserException e) {

return null;

}

return null;

}

public String getEncoding(){//獲得頁面編碼

FileAndEnc fae=readHtmlFile();

return fae.getEnc();

}

public float getRelatGrade(){//計算網頁的主題相關度

FileAndEnc fae=readHtmlFile();

String file=fae.getFile();

String enC=fae.getEnc();

String curString;

int curWordWei = 1;//當前關鍵詞權重

float curTagWei = 0;//當前標籤權重

float totalGra = 0;//總相關度分

int i;

AcApply obj = new AcApply();//實例化ac自動機

Pattern p = null;

Matcher m = null;

try{//根據不同標籤依次進行相關度計算

//title tag <title>

curTagWei=5;

Parser titleParser = Parser.createParser(file,enC);

NodeClassFilter titleFilter =new NodeClassFilter(TitleTag.class);

NodeList titleList = titleParser.extractAllNodesThatMatch(titleFilter);

for (i = 0; i < titleList.size(); i++) {

TitleTag titleTag=(TitleTag)titleList.elementAt(i);

curString=titleTag.getTitle();

Set result = obj.findWordsInArray(keyWords, curString);//ac自動機的方法返回匹配的詞的表

totalGra=totalGra+result.size()*curTagWei;//計算相關度

}

//meta tag of description and keyword <meta>

curTagWei=4;

Parser metaParser = Parser.createParser(file,enC);

NodeClassFilter metaFilter =new NodeClassFilter(MetaTag.class);

NodeList metaList = metaParser.extractAllNodesThatMatch(metaFilter);

p = Pattern.compile("\b(description|keywords)\b",Pattern.CASE_INSENSITIVE);

for (i = 0; i < metaList.size(); i++) {

MetaTag metaTag=(MetaTag)metaList.elementAt(i);

curString=metaTag.getMetaTagName();

if(curString==null){

continue;

}

m = p.matcher(curString); //正則匹配name是description或keyword的<meta>標籤

if(m.find()){

curString=metaTag.getMetaContent();//提取其content

Set result = obj.findWordsInArray(keyWords, curString);

totalGra=totalGra+result.size()*curTagWei;

}

else{

curString=metaTag.getMetaContent();

Set result = obj.findWordsInArray(keyWords, curString);

totalGra=totalGra+result.size()*2;

}

//heading tag <h*>

curTagWei=3;

Parser headingParser = Parser.createParser(file,enC);

NodeClassFilter headingFilter =new NodeClassFilter(HeadingTag.class);

NodeList headingList = headingParser.extractAllNodesThatMatch(headingFilter);

for (i = 0; i < headingList.size(); i++) {

HeadingTag headingTag=(HeadingTag)headingList.elementAt(i);

curString=headingTag.toPlainTextString();//得到<h*>標籤中的純文本

if(curString==null){

continue;

}

Set result = obj.findWordsInArray(keyWords, curString);

totalGra=totalGra+result.size()*curTagWei;

}

//paragraph tag <p>

curTagWei=(float)2.5;

Parser paraParser = Parser.createParser(file,enC);

NodeClassFilter paraFilter =new NodeClassFilter(ParagraphTag.class);

NodeList paraList = paraParser.extractAllNodesThatMatch(paraFilter);

for (i = 0; i < paraList.size(); i++) {

ParagraphTag paraTag=(ParagraphTag)paraList.elementAt(i);

curString=paraTag.toPlainTextString();

if(curString==null){

continue;

}

Set result = obj.findWordsInArray(keyWords, curString);

totalGra=totalGra+result.size()*curTagWei;

}

//link tag <a>

curTagWei=(float)0.25;

Parser linkParser = Parser.createParser(file,enC);

NodeClassFilter linkFilter =new NodeClassFilter(LinkTag.class);

NodeList linkList = linkParser.extractAllNodesThatMatch(linkFilter);

for (i = 0; i < linkList.size(); i++) {

LinkTag linkTag=(LinkTag)linkList.elementAt(i);

curString=linkTag.toPlainTextString();

if(curString==null){

continue;

}

Set result = obj.findWordsInArray(keyWords, curString);

totalGra=totalGra+result.size()*curTagWei;

}

}catch(ParserException e) {

return 0;

}

return totalGra;

}

private FileAndEnc readHtmlFile(){//讀取html文件，返回字元串格式的文件與其編碼

StringBuffer abstr = new StringBuffer();

FileAndEnc fae=new FileAndEnc();

try{

//實例化默認編碼方式的BufferefReader

BufferedReader enCReader= new BufferedReader(new InputStreamReader(new FileInputStream(filepath),"UTF-8"));

String temp=null;

while((temp=enCReader.readLine())!=null){//得到字元串格式的文件

abstr.append(temp);

abstr.append("
");

}

String result=abstr.toString();

fae.setFile(result);

String encoding=getEnc(result);

fae.setEnc(encoding);//得到頁面編碼

//根據得到的編碼方式實例化BufferedReader

BufferedReader reader= new BufferedReader(new InputStreamReader(new FileInputStream(filepath),encoding));

StringBuffer abstrT = new StringBuffer();

while((temp=reader.readLine())!=null){

abstrT.append(temp);

abstrT.append("
");

}

result=abstrT.toString();

fae.setFile(result);//得到真正的頁面內容

} catch (FileNotFoundException e) {

System.out.println("file not found");

fae=null;

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

fae=null;

} finally {

return fae;

}

private String getEnc(String file){//根據正則匹配得到頁面編碼

String enC="utf-8";

Pattern p = Pattern.compile("(charset|Charset|CHARSET)\s*=\s*"?\s*([-\w]*?)[^-\w]");

Matcher m = p.matcher(file);

if(m.find()){

enC=m.group(2);

}

return enC;

}

讀者需要注意兩點：

1.用BufferedReader讀取文件是需要編碼方式的，但是第一次讀取我們必然不知道網頁的編碼。好在網頁對於編碼的描述在html語言框架中，我們用默認的編碼方式讀取文件就可以獲取編碼。但這個讀取的文件的文本內容可能因為編碼不正確而產生亂碼，所以得到編碼後，我們應使用得到的編碼再實例化一個BufferedReader讀取文件，這樣得到的文件就是正確的了（除非網頁本身給的編碼就不對）。

獲得正確的編碼對於解析網頁內容是非常重要的，而網路上什麼樣的網頁都有，我推薦使用比較基礎、可靠的方法獲得編碼，我使用的是正則匹配。

舉個例子：

這是http://kb.cnblogs.com/page/143965/的對編碼的描述：

這是http://www.ucsd.edu/的對編碼的描述：

2.不熟悉html的讀者可能有所不知<meta>的作用，來看看博客園首頁的源碼：

這兩類<meta>標籤的很好的描述了網頁的內容

@編輯博客園首頁這個keyword的內容里這「Greek」……極客是「Geek」，「Greek」是希臘人

3.由於網頁的正文通常是一段最長的純文本內容，所以當我們得到一個<p>,<li>,<ul>標籤的純文本後，我們可以通過判斷字元串的長度來得到網頁的正文。

對頁面大量的信息進行處理是很費時的，頁面的<title>標籤和<meta>標籤中往往有對網頁內容最精鍊的描述，開發者應該考慮性能與代價

基於htmlparser實現網頁內容解析