python爬取youtube視頻多線程非中文自動翻譯

知識 03-20

環境

Python2.7+Windows10

網站很乾凈清爽，這次做的是基於關鍵字搜索來爬那些相關視頻，這樣就能很好的分類了，若輸入中文搜索，那結果也一般都是國內視頻，英文的話那就是國外的。

這裡先來測試中文的，輸入""搞笑""，搜出來很多視頻，也可以根據條件篩選，YouTube視頻鏈接很有規律，都是這種https://www.youtube.com/watch?v=v_OVBHGwOaU，只有後面的 v值不一樣，這裡就叫id吧。

ok，先從最簡單的開始，查看網頁源代碼看看這些視頻鏈接是否都是在裡面，我睜大了我的24k單身狗的眼睛找出來了。。。看了一下，視頻信息全在這個標籤裡面。

既然如此，那就直接上正則表達式來匹配

"url":"/watch?v=(.*?)","webPageType"

這樣就能匹配出ID來。但是這好像只有第一頁的視頻，那第二頁的呢，經常觀察，此方法不行，視頻翻頁是基於ajax請求來的，源碼裡面的信息始終都是第一頁的數據，ok 那既然這樣，我們來分析ajax請求，我喜歡用谷歌瀏覽器，打開開發者工具，network，來抓包。

滑鼠一直往下拉，會自動請求，是個post請求，一看就是返回的視頻信息。

看到這裡很高興，離勝利已經不遠了。但，我們先來看下headers 以及發送的post參數，看了之後就一句 wtf。。。

一萬個羊駝在奔騰，我把那些加密的參數都標記了，前後端交互，既然是發過去的數據，那肯定已經在前端產生了，至於什麼產生的，那就要一步一步分析來了，最後。對我沒有分析出來。。。剛開始挨著挨查看js文件，參數的確是在js裡面產生的，但。。。tmd寫的太複雜了。。。能力有限，解決不了。難道就這樣放棄了嗎。肯定不會，不然各位也不會看到這篇文章了。於是，我靈機一動，在地址欄裡面輸入&page= 結果，真的返回視頻了。。。卧槽哈哈哈，我當時真是很開心呢。因為前端頁面上並沒有翻頁按鈕，沒想到竟然還真的可以這樣翻頁。。。哈哈

既然這都被我猜出來了，那思路就很清晰了，翻頁--獲得源代碼-- 正則匹配 --就可以批量得到視頻鏈接了，然後去重後在想辦法直接通過這個鏈接去下載。於是，一陣百度谷歌找到很多方法，也找到很多api，ok 那就不必要重複造輪子，直接拿來用吧。

有一個開源項目youtube-dl 在github上是個命令行的應用，安裝之後，他是這樣的。

youtube-dl -F https://www.youtube.com/watch?v=_iupLGTX890

這樣就能直接分析出所有視頻格式的信息，然後通過id 就可以下載下來了。是很好用的一個工具。

在代碼裡面怎麼使用呢，直接調用cmd命令就行了，但是。經過我測試發現呢，批量下載時候，老是有一些視頻沒有下載完整，所以我就沒用這個方法了，在國外網站上找到一個api 還蠻不錯。

怎麼找怎麼使用api 我就不用介紹了吧，等會直接貼代碼，大家一看便知。

這裡在說下，當我輸入關鍵字是英文的話，搜出來的結果全部是英文的，於是我就下載成功後，保存文件翻譯一下他的標題。翻譯成中文的，我去找翻譯，最後就用金山詞霸了，如果使用官方api的話，好像也有收費。。那不行，我要直接爬頁面，於是，我就直接還是爬他的翻譯頁面，提交英文，返回中文，解析網頁，正則匹配出來。就這樣嘿嘿嘿。。

ok。說了這麼多了現在上代碼。