當前位置:
首頁 > 最新 > 泰國哪裡好玩?「普吉島。」不知道就不知道,賣什麼萌……

泰國哪裡好玩?「普吉島。」不知道就不知道,賣什麼萌……

2月20號刊

CDO·數據智能

你要去哪裡,或許你的手機比你還清楚。只要打開App,看著推送的信息,點擊你感興趣的,慢慢你就會有主意——當10個推送中5個開始和海島有關時。那麼,是去巴厘島還是普吉島?連名字都分不清的你有些苦惱,卻發現下面及時推送了這兩個地方的旅行產品和攻略。從那一閃而過的念頭開始,你就被大數據技術感知了,從而平穩的開始了你的旅行,從路線景點到吃喝玩樂的建議,甚至你完全沒有想到的都被呈現在你眼前,這是大數據應用的一個開始。

連接用戶與內容

馬蜂窩曾經是知名的旅遊攻略UGC社區,而現在,全球旅行服務平台會是更全面的定位,這個改變與馬蜂窩在數據應用上的進化是分不開的。

作為元老級人物,陳惠印象中最早的數據應用,是伴隨著移動端馬蜂窩App而出現的。「那時我們有了手機App後,特別想知道用戶都在看什麼樣的攻略、在找什麼樣的內容,所以我們的大數據最早的起源,其實就從手機APP里數據的採集開始的。」數據收集的出發點是為了了解用戶的需求,從而滿足需求,但在移動端大數據真正的應用,卻要等到2013年。

馬蜂窩旅行網副總裁陳惠

最早,馬蜂窩的攻略是分散在小組之中的,比如北京同城的小組中,會有去西安、普吉島和廈門的帖子,而「查找攻略」也是一件不容易的事情,想去廈門,可能意味著要在十多個小組中翻看幾十篇遊記來搜索信息。旅遊在絕大多數情況下,是人為了新鮮的體驗而去一個陌生的地方,因此信息的不透明幾乎是絕對的,如何讓用戶找到自己真實需要的信息,就變成了核心的問題。

UGC出身的馬蜂窩並不缺內容,但海量的內容多為照片和遊記,是非結構化的,怎麼樣才能讓它們和用戶高效率地連接在一起呢?在大數據部門的技術總監韓鑫看來,可以簡單的分成三個部分:一個是內容,一個是用戶,最後是推薦系統。而馬蜂窩做的事情,就是將前兩者的數據結構化,最後通過演算法匹配到一起。

2013年,馬蜂窩開始搭建了目的地分類系統,讓所有的內容可以在一個系統中呈現,這是內容結構化的基礎。「舉一個例子,比如對一家酒店,有許多用戶評論和遊記,我們會從中提取有用的信息。」韓鑫介紹,遊客往往會關注酒店的價格、環境、特色、餐飲和交通等信息,這些信息意味著不同的維度,將影響用戶的旅行決策。

比如對一家酒店一共有1000篇遊記,其中有500篇遊記涉及了交通的維度,在遊記中可能是「距離機場不遠」「在機場快線上」「去機場很方便」等不同的說法,而螞蜂窩通過構建自然語言的平台,將評論和遊記中原本發散的內容集中在一起。「首先是基於詞庫中的關鍵詞去搜索,然後是語義分析和數據挖掘技術。」 遊記的內容被分解為句子,然後句子分為句式,句式再分為片語,在系統中跑模型,最終被歸納成用戶易於理解的結果。韓鑫用知識圖譜的形式展示了日本的目的地信息,在眾多維內容中有溫泉,點擊溫泉後又會出現泉質等不同的內容,點擊泉質後又會有綠礬泉、單純泉、芒硝泉等,「這都是根據內容解析出來的,完全靠機器的話可能也不足夠準確,但這會是很好的基礎,在這個基礎上,再靠人工去校驗。」韓鑫說,通過這種方式UGC的內容得以結構化,從而形成螞蜂窩印象等產品。

在用戶畫像上,基於使用場景,馬蜂窩會將用戶分為四個階段。第一個階段是旅行空窗期,這個階段的用戶沒有明顯的旅行傾向,瀏覽的內容也相對分散;第二個階段是旅行發酵期,用戶已經有了一些模糊的出行需求,比如是國內游還是出國、會和誰一起旅行、有多少預算等,但假如是海島游,那是去巴厘島、普吉島還是馬爾地夫?這個階段的用戶,瀏覽攻略的內容開始集中,也會出現目的地搜索的行為。第三個階段是旅行準備期,用戶已經有了明確的目的地、旅行方式等;第四個階段是正在旅行

在這四個階段,通過對用戶瀏覽、點擊和搜索數據的收集分析,時間、地理位置信息的實時獲取,以及對用戶行為的引導,比如在用戶界面,會有國內、國外、帶娃旅行、海島游、情侶出行等不同的分類,馬蜂窩會勾勒出精準的用戶畫像,並在這個過程中給予不同場景下的推薦信息。「我知道了你在什麼地方,有什麼樣的旅行需求,也對內容有了解,包括多少個目的地、場景和標籤。」馬蜂窩旅行網副總裁陳惠說,推薦系統的搭建,讓用戶和內容間得以匹配,但在今天的行業中,推薦的演算法並不是壁壘。真正重要的是,根據自身的用戶特徵和產品定位,設計一個結構,然後把演算法應用在結構中去提升效率。「互聯網時代,每一次的流量,背後都是用戶的一次需求,所以了解好用戶的每一次訪問,才能服務好用戶,而這個核心就是大數據的能力。」而螞蜂窩對旅行階段和場景的判定,再配合不同的標籤和維度,可以讓用戶的需求細分,從而精準的匹配到同樣細分的內容資源上。

小團隊大賦能

在2017年的12月12日,馬蜂窩宣布獲得1.33億美元的D輪融資,快速擴張中的馬蜂窩團隊目前有700名員工。談到具體的大數據團隊,作為負責人的韓鑫卻笑著說,只有十幾個人,「但能夠利用和使用大數據的人,(在公司員工中)超過了70%」。

馬蜂窩大數據部門技術總監 韓鑫

在線旅遊擁有著豐富的場景和業務,尤其是馬蜂窩主打的「自由行」,因追求個性化而更顯得複雜,這給技術上帶來的挑戰是,如果靠傳統的方式去做大數據,那需要的工程師就太多了。「所以非常重要的一點是去賦能,用大數據賦能別人。」韓鑫說。

以基礎的數據採集工作為例,傳統的做法是,由公司的數據團隊去對接不同部門的各個系統做數據歸集,這涉及了大量的業務對接和標準化的問題,人力和時間成本都很高。而馬蜂窩的數據團隊在App的基礎上,搭建了統一標準化的數據採集系統,「哪怕是剛畢業的一個應屆生,只要做一個簡單的培訓,就可以十分鐘時間內自己去上報一條可能是千萬量級的數據。」

韓鑫對大數據能力的一個看法是,大多數公司不是做不到,而是效率太低。進行一項統計分析,比如哪些景點旅遊人數最多,第一、第二、第三分別是哪裡,用戶都在看什麼美食,在馬蜂窩的系統上,無需工程師去專門對接需求,只需要按照可視化的規則配置,就能夠以分鐘級的速度實現。「對業務使用者來講,他只需要理清楚自己到底要分析什麼,統計什麼,運算規則可能五分鐘就建立,之後所有的數據運維由數據團隊承接,關注這個運算規則能否很好地去執行,而統計結果會直接對接到產品內容上。」韓鑫告訴記者,這樣的規則在馬蜂窩有5萬多個,僅2017年一年就形成2萬多個,而傳統方式需要最少幾小時甚至一個周的時間。

「我們非常強調分享,也強調人人都是分析師,每個人都可以利用工具平台去輸出自己的數據,分享給別人。」而具體的實現方式,就是將整個數據流程從最底端採集到最前端呈現全部產品化,這樣,一個人只需要一個小時就能配置完成。而效率的提升也促進了對敏捷型業務的提升,韓鑫舉了一個例子,假如一個活動只有三天,很多公司不會願意為此而做數據研發,而如果只需要花費一個小時就可以完成,那就值得做了。「我們的一個基本的思路就是賦能。」他說:「通過產品化,讓每一個人都有能力去處理數據、加工數據,能夠根據自己的實際需求,來決定到底哪些東西是需要被處理的,儘可能降低大數據技術的門檻,然後讓更多人能利用大數據技術,去給他自己的產品和業務帶來幫助。」

作者 | 李昊原

微信編輯 | 李昊原

審稿編輯 | 正月


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT經理世界 的精彩文章:

您有一份3D列印零件,請簽收!

TAG:IT經理世界 |