當前位置:
首頁 > 最新 > 僅僅學會了requests和scrapy,你以為就足夠了嗎?接下來教你一個新神器

僅僅學會了requests和scrapy,你以為就足夠了嗎?接下來教你一個新神器

爬蟲的話一般掌握了requests和urllib是不夠的,但是直接去使用scrapy又有些大材小用,而且scrapy在自動化方面也比不上selenium。

而且requests對於沒有動態載入的還是很強,但是一旦ajxs非同步載入,js非同步載入,requests雖然也不一定不能解決,但就算是解決了也十分複雜。

而這個時候,使用selenium進行抓取就十分方便了,selenium主要是應用於自動化測試,使用的是瀏覽器去訪問,相當於將瀏覽器的API介面封裝起來,然後在Python中使用。

下面講解一下,在selenium定位元素極其容易出現的問題和麻煩。

Selenium中的webdriver定位元素失敗的常見原因

1.動態id定位不到元素

for example:

//WebElement xiexin_element = driver.findElement(By.id("_mail_component_82_82"));

WebElement xiexin_element = driver.findElement(By.xpath("//span[contains(.,"寫 信")]"));

xiexin_element.click();

所以推薦使用xpath的相對路徑方法查找到該元素。

2.Frame/Iframe原因定位不到元素:

這個是最常見的原因,首先要理解下frame的實質,frame中實際上是嵌入了另一個頁面,而webdriver每次只能在一個頁面識別,因此需要先定位到相應的frame,對那個頁面里的元素進行定位。

解決方案:

如果iframe有name或id的話,直接使用switch_to_frame("name值")或switch_to_frame("id值")。如下:

driver=webdriver.Firefox()

driver.switch_to_frame("x-URS-iframe") #需先跳轉到iframe框架

username=driver.find_element_by_name("email")

username.clear()

如果iframe沒有name或id的話,則可以通過下面的方式定位:

#先定位到iframe

elementi= driver.find_element_by_class_name("APP-editor-iframe")

#再將定位對象傳給switch_to_frame()方法

driver.switch_to_frame(elementi)

如果完成操作後,可以通過switch_to.parent_content()方法跳出當前iframe,或者還可以通過switch_to.default_content()方法跳回最外層的頁面。

另:可前往我另外一篇博文了解下html的iframe標籤:w3school之HTML學習筆記-框架標籤

今天嘗試來登陸網易郵箱測試切換多個瀏覽器窗口,用了各種方式定位註冊按鈕都是失敗的。

通過查找源代碼發現原來登陸框是一個內置的iframe框架,

3.xpath描述錯誤

這個是因為在描述路徑的時候沒有按照xpath的規則來寫 造成找不到元素的情況出現。

4.點擊速度過快 頁面沒有載入出來就需要點擊頁面上的元素

這個需要增加一定等待時間,顯示等待時間可以通過WebDriverWait 和util來實現

例如:

//用WebDriverWait和until實現顯示等待 等待歡迎頁的圖片出現再進行其他操作

WebDriverWait wait = (new WebDriverWait(driver,10));

wait.until(new ExpectedCondition(){

public Boolean apply(WebDriver d){

boolean loadcomplete = d.switchTo().frame("right_frame").findElement(By.xpath("//center/div[@class="welco"]/img")).isDisplayed();

return loadcomplete;

}

});

也可以自己預估時間通過Thread.sleep(5000);//等待5秒 這個是強制線程休息.

5.firefox安全性強,不允許跨域調用出現報錯

錯誤描述:uncaught exception: [Exception... "Component returned failure code: 0x80004005 (NS_ERROR_FAILURE) [nsIDOMNSHTMLDocument.execCommand]" nsresult: "0x80004005 (NS_ERROR_FAILURE)" location:

解決辦法:

這是因為firefox安全性強,不允許跨域調用。

Firefox 要取消XMLHttpRequest的跨域限制的話,第一

是從 about:config 里設置 signed.applets.codebase_principal_support = true; (地址欄輸入about:config 即可進行firefox設置)

第二就是在open的代碼函數前加入類似如下的代碼: try { netscape.security.PrivilegeManager.enablePrivilege("UniversalBrowserRead"); } catch (e) { alert("Permission UniversalBrowserRead denied."); }


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Python雁橫 的精彩文章:

黑客是如何入侵你的電腦,你知道了嗎?

TAG:Python雁橫 |