當前位置:
首頁 > 科技 > Python 爬取了馬蜂窩的出行數據,告訴你這個夏天哪裡最值得去!

Python 爬取了馬蜂窩的出行數據,告訴你這個夏天哪裡最值得去!

正值火辣的暑假,朋友圈已經被大家的旅行足跡刷屏了,真的十分驚嘆於那些把全國所有省基本走遍的朋友們。與此同時,也就萌生了寫篇旅行相關的內容,本次數據來源於一個對於爬蟲十分友好的旅行攻略類網站:螞蜂窩。

獲得城市編號

螞蜂窩中的所有城市、景點以及其他的一些信息都有一個專屬的5位數字編號,我們第一步要做的就是獲取城市(直轄市+地級市)的編號,進行後續的進一步分析。

以上兩個頁面就是我們的城市編碼來源。需要首先從目的地頁面獲得各省編碼,之後進入各省城市列表獲得編碼。

過程中需要Selenium進行動態數據爬取,部分代碼如下:

獲得城市信息

城市數據分別從以下幾個頁面獲取:

(a)小吃頁面

(b)景點頁面

(c)標籤頁面

我們將每個城市獲取數據的過程封裝成函數,每次傳入之前獲得的城市編碼,部分代碼如下:

數據分析

PART1:城市數據

首先我們看一下遊記數量最多的TOP10城市:

遊記數量TOP10數量基本上與我們日常所了解的熱門城市相符,我們進一步根據各個城市遊記數量獲得全國旅行目的地熱力圖:

看到這裡,是不是有種似曾相識的感覺,如果你在朋友圈曬的足跡圖與這幅圖很相符,那麼說明螞蜂窩的數據與你不謀而合。

最後我們看一下大家對於各個城市的印象是如何的,方法就是提取標籤中的屬性,我們將屬性分為了休閑、飲食、景點三組,分別看一下每一組屬性下大家印象最深的城市:

看來對於螞蜂窩的用戶來說,廈門給大家留下的印象是非常深的,不僅遊記數量充足,並且能從中提取的有效標籤也非常多。重慶、西安、成都也無懸念地給吃貨們留下了非常深的印象,部分代碼如下:

PART2:景點數據

我們提取了各個景點評論數,並與城市遊記數量進行對比,分別得到景點評論的絕對值和相對值,並據此計算景點的人氣、代表性兩個分數,最終排名TOP15的景點如下:

螞蜂窩網友對於廈門真的是情有獨鍾,鼓浪嶼也成為了最具人氣的景點,在城市代表性方面西塘古鎮和羊卓雍措位列前茅。暑假之際,如果擔心上排的景點人太多,不妨從下排的景點中挖掘那些人少景美的旅遊地。

PART3:小吃數據

最後我們看一下大家最關注的的與吃相關的數據,處理方法與PART2景點數據相似,我們分別看一下最具人氣和最具城市代表性的小吃。

出乎意料,螞蜂窩網友對廈門果真愛得深沉,讓沙茶麵得以超過火鍋、烤鴨、肉夾饃躋身最具人氣的小吃。

在城市代表性方面,海鮮的出場頻率非常高,這點與大(ben)家(ren)的認知也不謀而合,PART2與3的部分代碼如下:

文中所有涉及到的代碼已經發到Github上了,歡迎大家自取:

https://github.com/shujusenlin/mafengwo_data

聲明:本文為作者投稿,版權歸對方所有。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

華為首次趕超蘋果;拼多多遭調查;Google 計劃推中國版搜索引擎
人工智慧浪潮下的 Web 開發,程序員該如何上手?

TAG:CSDN |