當前位置:
首頁 > 最新 > 數據分析告訴你月薪多少才「配」坐高鐵

數據分析告訴你月薪多少才「配」坐高鐵

快放假了,學姐又要去看望她的遍布祖國各地的男友們了。

沒錯,每當重要的假期來臨,學姐就會開始認真地研究買火車票的問題:到底怎麼規划行程,怎麼控制預算,假如男友們堅持要一起坐車,怎麼讓他們彼此都無法發現對方的存在。諸如此類的問題。不用說,這出謀劃策的任務又落在我的身上了。

果不其然,學姐又問了:哎,短短一個月,要去看那麼多人,火車票就是一筆大開銷。小團,你說我坐動車還是高鐵呢?我這麼點收入應該坐哪種火車比較划算呢?

劃不划算的話,對於任何一班列車而言,其實都需要考慮三個重要屬性:

1,列車區段;

2,運行時間;

3,車票價格。

在這三個要素中,運行時間和票價之間的關係十分明顯不用多說:對於在同一區段里運行的不同車次,運行時間越短則票價越高。但對於學姐這樣要遊歷全國的人來說,需要研究的就不僅僅是某一趟車了,而是全國多個區段的多種車次。那麼,我們就不得不先研究以下問題:

在全國尺度上來看,列車區段與票價或運行時間之間是什麼關係呢?

我們以2015年6月某日的全國列車時刻表為例吧(數據是上個月某天心血來潮從網上抓下來的是的我就是這麼隨性)。該表共計約有24000條區段信息(站到站信息),包括了站點、時刻、座位等級、票價等等。一共覆蓋了全國235個熱點城市和500個火車站,畫成圖的話大概長這樣:

好的,看著上面這張圖,第一個問題來了:在全國鐵路網中,哪些區段的時間更昂貴呢?

為了衡量「昂貴度」,我們可以把任何一段線路上最高列車票價(Pmax)和列車最短運行時間(tmin)的比值(Pmax/tmin)作為參考。換句話說,我們可以簡單地認為:單位時間內支付的票價(時價比)越高,說明該區段越昂貴。

在這個思路下,我們選出了全國所有區段上跑得最快的車次,然後計算出這些車次的時價比,再把其數值落在空間上,畫出圖來大概長這樣(由於區段間互有疊加,為了看得更清楚所以採用了站到站的直線顯示方法,故而跟上圖略有不同):

顏色越紅,說明這兩站點之間的區段越昂貴,顏色越藍則反之。較為昂貴的區段大量地分布在京廣、京滬、哈大這三條高鐵線路上。其中最貴的前五名區段則如下表所示:

可以看到,京廣線上價格頗高,而最貴的深廣段已經達到了每小時160塊錢的高價。

在了解完最貴的區段後,第二個問題又來了;在全國鐵路網中,哪些區段的時間更便宜呢?

同樣的道理,我們可以把全國所有區段上最低列車票價(Pmin)和列車最長運行時間(tmax)的比值(Pmin/tmax)作為區段「便宜度」的參考值。換句話說,我們可以簡單地認為:單位時間內支付的票價(時價比)越低,說明該區段越便宜。

在這個思路下,我們選出各區段上跑的最慢的車次,計算出這些車次的時價比,並落在空間線路上,大概長這樣:

顏色越綠,區段越便宜,顏色越紅,則反之。從圖中可以看到,很明顯地,中西部地區的便宜區段要遠遠多於東部沿海地區。其中最便宜的區段的前五名則如下表所示:

沒想到的是,最便宜的區段竟然並不在偏遠地區,而是帝都附近的廊坊北京段。我又查閱了一下車次,發現使得這個區段最便宜的那班車,是廊坊北站到北京站的6452次普通快車,票價只要4塊錢,運行3小時,算下來每小時才1塊多錢。廊坊果然是個好地方,只要一個驢火的錢就能送你去首都。

通過以上兩個問題的分析,我們可以看到,在全國尺度上不同鐵路區段的時價比大相徑庭。這樣的話,不同類型的列車之間就很難有直接的可比性了。

於是,我弱弱地問:學姐,你男友實在太多了,而全國性的研究又十分困難。為了可操作性,你要不要刪掉一些鐵路支線上的男友啊。學姐翻了翻手機通訊錄,羞澀地說:好吧,你說的也有道理。不如我就先去看住在崑山、蘇州、無錫、常州、鎮江、南京、宿遷、徐州、泰安、濟南、滄州、北京的男友們吧。其他的讓他們等下次假期再說。

學姐果然溫柔體貼,怪不得整個京滬線上全是男朋友。但這樣也好,京滬線區段設定了,接下來需要分析車次了。查閱一下抓取到的數據,6月某日共計有92班京滬列車(京-滬、滬-京各46班車),其具體情況如下表所示:

然後,計算出每輛列車的時價比,得到下圖:

在上圖中,橫軸代表運行時間長度、縱軸代表票價高低,氣泡大小代表班車數量。

可以看到,在京滬線上,大部分列車的運營時間都保持在6小時左右,而時價比最高的京滬列車編號則分別為G1/G2/G3/G4(看編號就覺得碉堡了),達到了115元/小時。

也就是說,假如學姐要坐這四班車去看男友們,那麼每個小時要支付115塊錢。

這是什麼概念呢?

我們來做個比較。根據上海市統計年鑒,2013年上海市的平均工資62203元/年。按每年工作12個月、每月工作22天、每天工作8小時計算的話,平均時薪大約是29.5元/小時。嗯,沒錯,這大概是高鐵時價比(115元)的四分之一。

因此,理論上來看,坐高鐵每小時所花掉的錢,是遠遠大於上海大部分人的時薪收入的。那麼,反過來看,要月收入多少才能坐高鐵呢?

答案是:當月薪到2萬時,你的時間就和高鐵一樣值錢了。

先別著急跟自己比較,我們不妨再往深處挖掘一下。

我們再進一步整理統計年鑒中2013年北京和上海的數據,根據行業大類計算出每個行業的時薪,然後疊加在京滬列車的時價比上,可以得到這張圖:

可以看到:

1 上海市的金融業平均時薪約84元,勉強趕得上最便宜的高鐵;

2 而北京的金融業平均時薪約111元,幸運地可以趕上較快的高鐵,但也只是二等座而已。

3 而其他大多數行業的時薪都沒趕上高鐵,只在動車的價格附近徘徊:

4 至於從事餐飲業、居民服務業和在上海務農的小夥伴,不好意思要不然你們還是考慮普通列車試試看?

聽完這個結論,學姐整個人陷入了久久的沉默之中。我感覺她可能再也不想見自己的男友們了。

我看著她悲愴的眼神,忍不住說:學姐,你先不要絕望。實際上,我還有一個好辦法:讓你即便時薪跑不過高鐵,但也能相對划算地乘坐。

學姐趕忙抓住我的手,問:什麼辦法?

我說:心誠則靈。

學姐問:什麼意思?

我說:意思是,你必須下定決心不顧一切地去看你的男友們才行。

學姐問:這有什麼不一樣嗎?

我說:當然不一樣。學姐,假如你已經決定了要坐火車去某地看你的男友們,排除萬難一定要去,那麼無論如何你都會買一張票。在這樣一種新的設定下,你需要參考的已經不再是某一趟列車的時價比,而應當是你最終所選擇的那趟列車的時價和你所能選擇的最低時價之間的差值。

換句話說,當你下定決心一定要去之後,你就不需要再考慮這趟旅途每小時付多少錢的問題,而需要考慮的是:這趟旅行你會省多少時間,而為了省這些時間,你要多付多少錢。

而這個下定了決心之後的公式大概長這樣:dP/dt=(Pmax-Pmin)/(tmax-tmin)

我們用這個新公式計算一下結果吧,為了縮短在京滬線路上的時間,你需要額外支付多少錢呢?

看圖便知:

從圖中可以看到,京滬列車的時間價格並不是連續變化的,而是有4個跳躍點。每一個點就是一次車型等級的變化:

1 假如你乘坐歷時22小時的、最慢的那班車,你只需要支付156.5元的硬座票價;

2 如果你想把時間縮短7個小時,需要額外再支付21元;

3 想要縮短10.5個小時,需再支付131.5元;

4 想要縮短12個小時,再支付99元;

5 想縮短16個小時甚至更多,再支付145元。

156.5+21+131.5+99+145=553元,沒錯,這就是高鐵二等座的價格。

然後我們再把跳躍的價格平攤到每一個小時,我們就可以得到京滬列車的價格增益曲線,如下圖所示。

雖然圖看起來很抽象,但可以清楚地看到,縱軸標示的數量級頓時下降到了30元以內。是的,如果學姐選擇了乘坐運行時間約5小時的那班高鐵(上圖中最左端的點),那麼與普快相比,可以節省17個小時,而你為這17個小時多支付了多少錢呢?

答案是:396.5元。即每個小時價值23元。換算到月薪大約4050元。

好吧,學姐,假如你已經下定了排除萬難不顧一切地去見你的男友們的決心,那麼究竟要不要選擇坐高鐵,可能只剩下最後一個問題了:

你的月薪超過4050元了嗎?

寫在後面的話。

學姐薪水涉及個人隱私,我就不隨意透露了,而至於學姐最後是否買了高鐵票去見到了她的男友們呢?我也不得而知。

但無論如何,增加一個彩蛋吧。我們根據統計年鑒上所記錄的各個行業平均收入,非常貼心地列出了推薦乘坐的列車類型和班次。如下表所示:

總而言之,請珍惜你身邊月薪低於4050元的小夥伴們吧,沒事多帶他們坐高鐵兜兜風。要知道,這可是(前)鐵道部給你定出的一條「配」坐高鐵的金線。

*註:

1,本文所有數據均來自於互聯網開源數據或公開數據,由城市數據團(MDT)提供。但需要注意的是,本文僅從時間成本的角度上討論了乘坐高鐵的選擇問題,僅供參考。現實世界中,人們總會考慮更多因素,無論如何,個人選擇的事,還是跟隨自己的內心吧。

目前已有1438位行業人士加入.......

涉及數據分析入門、工具交流、案例分享、機器學習與人工智慧、競賽指導

歡迎加入數據君數據分析秘密組織(收費)

(保存圖到手機相冊,然後微信掃,才可以加入)

數據挖掘與大數據分析

(datakong)

傳播數據解讀行業技術前沿案例分享

2013年新浪百強自媒體

2016年中國十大大數據影響平台

榮譽不重要,乾貨最實在

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據公社 的精彩文章:

七種常用回歸技術,如何正確選擇回歸模型?
強文!看懂數據探索,完整指導!

TAG:大數據公社 |