Python 爬取了馬蜂窩的出行數據,告訴你這個夏天哪裡最值得去!
正值火辣的暑假,朋友圈已經被大家的旅行足跡刷屏了,真的十分驚嘆於那些把全國所有省基本走遍的朋友們。與此同時,也就萌生了寫篇旅行相關的內容,本次數據來源於一個對於爬蟲十分友好的旅行攻略類網站:螞蜂窩。
獲得城市編號
螞蜂窩中的所有城市、景點以及其他的一些信息都有一個專屬的5位數字編號,我們第一步要做的就是獲取城市(直轄市+地級市)的編號,進行後續的進一步分析。
以上兩個頁面就是我們的城市編碼來源。需要首先從目的地頁面獲得各省編碼,之後進入各省城市列表獲得編碼。
過程中需要Selenium進行動態數據爬取,部分代碼如下:
獲得城市信息
城市數據分別從以下幾個頁面獲取:
(a)小吃頁面
(b)景點頁面
(c)標籤頁面
我們將每個城市獲取數據的過程封裝成函數,每次傳入之前獲得的城市編碼,部分代碼如下:
數據分析
PART1:城市數據
首先我們看一下遊記數量最多的TOP10城市:
遊記數量TOP10數量基本上與我們日常所了解的熱門城市相符,我們進一步根據各個城市遊記數量獲得全國旅行目的地熱力圖:
看到這裡,是不是有種似曾相識的感覺,如果你在朋友圈曬的足跡圖與這幅圖很相符,那麼說明螞蜂窩的數據與你不謀而合。
最後我們看一下大家對於各個城市的印象是如何的,方法就是提取標籤中的屬性,我們將屬性分為了休閑、飲食、景點三組,分別看一下每一組屬性下大家印象最深的城市:
看來對於螞蜂窩的用戶來說,廈門給大家留下的印象是非常深的,不僅遊記數量充足,並且能從中提取的有效標籤也非常多。重慶、西安、成都也無懸念地給吃貨們留下了非常深的印象,部分代碼如下:
PART2:景點數據
我們提取了各個景點評論數,並與城市遊記數量進行對比,分別得到景點評論的絕對值和相對值,並據此計算景點的人氣、代表性兩個分數,最終排名TOP15的景點如下:
螞蜂窩網友對於廈門真的是情有獨鍾,鼓浪嶼也成為了最具人氣的景點,在城市代表性方面西塘古鎮和羊卓雍措位列前茅。暑假之際,如果擔心上排的景點人太多,不妨從下排的景點中挖掘那些人少景美的旅遊地。
PART3:小吃數據
最後我們看一下大家最關注的的與吃相關的數據,處理方法與PART2景點數據相似,我們分別看一下最具人氣和最具城市代表性的小吃。
出乎意料,螞蜂窩網友對廈門果真愛得深沉,讓沙茶麵得以超過火鍋、烤鴨、肉夾饃躋身最具人氣的小吃。
在城市代表性方面,海鮮的出場頻率非常高,這點與大(ben)家(ren)的認知也不謀而合,PART2與3的部分代碼如下:
文中所有涉及到的代碼已經發到Github上了,歡迎大家自取:
https://github.com/shujusenlin/mafengwo_data。
聲明:本文為作者投稿,版權歸對方所有。


※華為首次趕超蘋果;拼多多遭調查;Google 計劃推中國版搜索引擎
※人工智慧浪潮下的 Web 開發,程序員該如何上手?
TAG:CSDN |