僅僅學會了requests和scrapy，你以為就足夠了嗎？接下來教你一個新神器

最新 04-01

爬蟲的話一般掌握了requests和urllib是不夠的，但是直接去使用scrapy又有些大材小用，而且scrapy在自動化方面也比不上selenium。

而且requests對於沒有動態載入的還是很強，但是一旦ajxs非同步載入，js非同步載入，requests雖然也不一定不能解決，但就算是解決了也十分複雜。

而這個時候，使用selenium進行抓取就十分方便了，selenium主要是應用於自動化測試，使用的是瀏覽器去訪問，相當於將瀏覽器的API介面封裝起來，然後在Python中使用。

下面講解一下，在selenium定位元素極其容易出現的問題和麻煩。

Selenium中的webdriver定位元素失敗的常見原因

1.動態id定位不到元素

for example:

//WebElement xiexin_element = driver.findElement(By.id("_mail_component_82_82"));

WebElement xiexin_element = driver.findElement(By.xpath("//span[contains(.,"寫信")]"));

xiexin_element.click();

所以推薦使用xpath的相對路徑方法查找到該元素。

2.Frame/Iframe原因定位不到元素：

這個是最常見的原因，首先要理解下frame的實質，frame中實際上是嵌入了另一個頁面，而webdriver每次只能在一個頁面識別，因此需要先定位到相應的frame，對那個頁面里的元素進行定位。

解決方案：

如果iframe有name或id的話，直接使用switch_to_frame("name值")或switch_to_frame("id值")。如下：

driver=webdriver.Firefox()

driver.switch_to_frame("x-URS-iframe") #需先跳轉到iframe框架

username=driver.find_element_by_name("email")

username.clear()

如果iframe沒有name或id的話，則可以通過下面的方式定位：

#先定位到iframe

elementi= driver.find_element_by_class_name("APP-editor-iframe")

#再將定位對象傳給switch_to_frame()方法

driver.switch_to_frame(elementi)

如果完成操作後，可以通過switch_to.parent_content()方法跳出當前iframe，或者還可以通過switch_to.default_content()方法跳回最外層的頁面。

另：可前往我另外一篇博文了解下html的iframe標籤：w3school之HTML學習筆記-框架標籤

今天嘗試來登陸網易郵箱測試切換多個瀏覽器窗口，用了各種方式定位註冊按鈕都是失敗的。

通過查找源代碼發現原來登陸框是一個內置的iframe框架，

3.xpath描述錯誤

這個是因為在描述路徑的時候沒有按照xpath的規則來寫造成找不到元素的情況出現。

4.點擊速度過快頁面沒有載入出來就需要點擊頁面上的元素

這個需要增加一定等待時間，顯示等待時間可以通過WebDriverWait 和util來實現

例如：

//用WebDriverWait和until實現顯示等待等待歡迎頁的圖片出現再進行其他操作

WebDriverWait wait = (new WebDriverWait(driver,10));

wait.until(new ExpectedCondition(){

public Boolean apply(WebDriver d){

boolean loadcomplete = d.switchTo().frame("right_frame").findElement(By.xpath("//center/div[@class="welco"]/img")).isDisplayed();

return loadcomplete;

}

});

也可以自己預估時間通過Thread.sleep(5000);//等待5秒這個是強制線程休息.

5.firefox安全性強，不允許跨域調用出現報錯

錯誤描述：uncaught exception: [Exception... "Component returned failure code: 0x80004005 (NS_ERROR_FAILURE) [nsIDOMNSHTMLDocument.execCommand]" nsresult: "0x80004005 (NS_ERROR_FAILURE)" location:

解決辦法：

這是因為firefox安全性強，不允許跨域調用。

Firefox 要取消XMLHttpRequest的跨域限制的話，第一

是從 about:config 里設置 signed.applets.codebase_principal_support = true；（地址欄輸入about:config 即可進行firefox設置）

第二就是在open的代碼函數前加入類似如下的代碼： try { netscape.security.PrivilegeManager.enablePrivilege("UniversalBrowserRead"); } catch (e) { alert("Permission UniversalBrowserRead denied."); }

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python雁橫 的精彩文章:

※黑客是如何入侵你的電腦，你知道了嗎？

TAG:Python雁橫 |