爬蟲入門
網路爬蟲(Web crawler),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用於互聯網搜索引擎或其他類似網站,可以自動採集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。從功能上來講,爬蟲一般分為數據採集,處理,儲存三個部分。
一.什麼是爬蟲
爬蟲就像是一直蜘蛛一樣 ,而互聯網是就像是一張大大的蜘蛛網一樣。簡單的說爬蟲就是請求網站並提取數據的自動化程序。
請求:我們打開瀏覽器輸入關鍵詞敲擊回車,這就叫做是請求。我們做的爬蟲就是模擬瀏覽器進行對伺服器發送請求,然後獲取這些網路資源。
提取:我們得到這些網路資源都是一些HTML代碼,或者是一些文本文字。我們下一步做的工作就是在這些數據中提取出我們想要的東西。比如一個手機號。存在資料庫或者文檔裡面。
自動化:程序就能代替人工不停的大量的進行提取數據。
二:爬蟲的基本流程
1.發起請求:通過http庫向目標站發起請求,即發送一個Request,請求可以包含額外的headers等信息,等待伺服器響應。
2.獲取響應的內容:如果伺服器能正常的響應,會得到一個Request的內容便是所要獲取的頁面內容、類型可能有HTML,Json字元轉,二進位數據等類型
3.解析內容:得到的內容可能是HTML可以用正則表達式,網頁解析庫進行解析。可能是json,可以直接轉為json對象解析,可能是二進位數據,可以做保存或者進一步處理。
4.保存數據:保存格式多樣化,可以存為文本,也可以保存至資料庫,或者保存特定格式的文件。
三:什麼是Request和Response
1.瀏覽器就發送消息給該網址所在的伺服器,這個過程叫做HTTP Request。
2.伺服器收到瀏覽器發送的消息後,能夠根據瀏覽器發送消息的內容,做相應處理,然後把消息回傳給瀏覽器。這個過程叫做HTTP Response。
3.瀏覽器收到伺服器的Response信息後,會對信息進行相應處理,然後展示。
四:Request包含什麼
1.請求方式:主要有Get,Post兩種類型,另外還有Head,put,delete,options等。
最主要的就是get和pose兩種請求方式。pose請求的方式大多是用在登陸的請求上,他將許多的請求參數封裝在一起,進行保密。get則是需要很多的參數才可以,用於搜索。
2.請求URL
URL全稱統一資源定位符,如一個網頁文檔、一張圖片,一個視頻等都可以用URL唯來確定。
3.請求頭:包含請求時的頭部信息,如User-Agent,Host,Cookie等信息。
五:Response包含什麼
1.響應狀態:200代表成功,300以上的狀態時用來做頁面跳轉的,400以上是用來說明伺服器找不到資源的,500以上時表示伺服器處理錯誤。
2.響應頭:如內容的類型,內容的長度,伺服器信息,,設置Cookie信息等等
3.響應體:最主要的部分,包含了請求資源的內容,如網頁的HTML,圖片二進位數據等
※Firefox 61已經為Ubuntu 提供支持
※SUSE發布全新版本,多模塊設計為IT轉型賦能
TAG:Linux資訊速推 |