當前位置:
首頁 > 知識 > 學習分享 Java爬蟲偽代碼

學習分享 Java爬蟲偽代碼

之前一直有個同事想讓我教教他怎麼把csdn上的數據爬下來的,我在這裡就簡單的說一下~~話說做爬蟲我也不是專業的~~業餘的~~有什麼問題幫我指正就好~~

為什麼是偽代碼呢?就是給大家把原理講講~~真實代碼我就不在這裡寫了~~大家自己琢磨去吧~~

需要如下幾個工具

1、緩存:我採用的是redis~~經常做後台習慣用了~

3、網路鏈接工具

話說後面兩個我直接就用jsoup了

我個人的話是先做了一個緩存url方法

類的樣子大概是這樣的

//這也可以作為一個入口 save (url){ if(redis.get(url) 存在){ return }else{ redis.put(url); savedate(url); } }

又做了一個下載數據的

savedate(url){ dom = 讀取(url); dom.存儲你想存的數據(); List = dom.讀取(); for(String url:list){ //遞歸調用 save(url); } }

這是個最簡單的小栗子

但是呢~~你如果真用這個去寫個爬蟲的話~~

額~~為什麼呢~~如果這麼遞歸下去~~肯定棧溢出了~~

所以還有好多工作要做~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 java吧 的精彩文章:

學了Java開發能給大家多少崗位從事
Java——面向對象基礎
如何成為一名合格的 Java 程序員
Java Web項目中使用JNI技術
學習Java分為幾個階段,分別是什麼?

TAG:java吧 |

您可能感興趣

Linux學習
自學python vs 培訓班學習
大年初七,發paper、學Python……分享一下你的學習計劃吧
RocketMQ 源碼學習 2 : Namesrv
機器學習與Scikit Learn學習庫
學習通分的遊戲:Fraction Formula Game
Python學習——自己編寫的一段小代碼
論文學習 about CAM
Spring Boot 入門學習
小伙1小時敲出AlexNet,深度學習tensorflow原創體驗,代碼可運行
為什麼要學習Python?一個月學習Python的經驗分享
Google的內部孵化器發布代碼學習工具Grasshopper,讓你秒變大神
vs「學ぶ」vs「習う」vs「學習する」
經驗分享:我的Deeplearning.ai課程學習之旅!
多Agent 學習 AI 炸彈人遊戲挑戰賽——Playground
Python爬蟲學習Scrapy之Spiders
亞馬遜AWS首席科學家Animashree Anandkumar:機器學習將引領未來革命
RocketMQ 源碼學習 3 :Remoting 模塊
Linux的學習技巧
用Scratch+IBM Watson實現機器學習