2018，在大數據的海洋中揚帆起航

最新 01-22

時間來到2018年，大數據已經深入到我們生活的方方面面。旅遊研究如何與大數據結合起來，產生更加鮮活和接地氣的研究成果呢？本期「柚道是」選取了三篇將大數據和數據挖掘應用於旅遊研究領域的前沿文獻，期待能為各位柚友們帶來創作靈感。

1.從社交媒體大數據中創造價值：對智慧旅遊目的地的啟示

Creating Value from Social Big Data: Implications for Smart Tourism Destinations

2. 遊客行為分析的大數據解析法

A Big Data Analytics Method for Tourist Behaviour Analysis

3. 預測商業失敗：最近鄰支持向量機和修正的非均衡樣本-來自中國酒店行業的證據

Forecasting Business Failure: The use of nearest-neighbour support vectors and correcting imbalanced samples - Evidence from the Chinese hotel industry

我是柚子的分割線，以下為正文～

本文共計2605字，閱讀大約需要5分鐘

社交媒體大數據——眾人拾柴火焰高？

圖片來源：pixabay.com

由於旅遊業信息密集性的本質以及對信息和溝通技術的依賴，大數據的出現對旅遊業尤為重要。解析來自旅遊者的數據、信息和知識，探究來自旅遊者的知識來源如何發揮實質性作用，是提升目的地競爭力和創新能力的關鍵。社交媒體大數據作為消費者生成內容的結果，它的聚合、互聯、分析、集成、實時同步和數據的智能使用，成為價值創造的主要驅動要素。智慧旅遊目的地的主要目標是創造智慧體驗，通過技術實現體驗的個性化、情境感知和實時監控。在此基礎上，Vecchio，Mele，Valentina，Secundo四位作者在本研究中解決的關鍵問題是：從社交媒體中產生的大數據如何為智慧旅遊目的地創造價值？

為達成這一目標，作者採用探索性多案例研究法，選取義大利南部阿普利亞地區的7個目的地作為案例，對社交媒體 (Facebook, Twitter, Instagram) 上關於這些目的地的數據 (Posts, Tweets, Comments, Texts, Videos, Images等) 進行了收集、監控、分析、總結和可視化。主要運用Keyhole和Buzztrack兩個工具對數據進行分析。Keyhole是一個免費的集群分析工具，Buzztrack是一個情緒分析和社交媒體監控的專門工具。為更好的理解關於案例分析的一些具體問題，作者還對關鍵信息提供者（對某個事件提供關鍵信息的社交媒體數據提供者）進行了半結構化訪談，包括三個主要問題：觀察到的舉措的總體概況; 衡量顧客滿意度和參與度的策略;從社交媒體收集到的數據的使用情況。

研究表明，社交媒體大數據能夠給智慧目的地帶來的價值包括四點：(1) 通過同步旅遊者體驗的實時信息 (Real Time Information)，改善決策過程；(2) 通過發現和預測需求，增強和豐富旅遊者體驗；(3) 使與外部利益相關者的動態聯繫成為可能，發展新的商業模式和新的產品和服務；(4) 促進利益相關者的合作與信任，加強商業生態系統內的相互聯繫。有志於發展智慧旅遊目的地的管理者和研究者們，可以嘗試將本文的研究成果應運用實踐中哦！

原文鏈接：http://www.sciencedirect.com/science/article/pii/S0306457316307270

我的照片我的心

圖片來源：pixabay.com

如何追蹤旅遊者行為一直是旅遊目的地管理者的主要挑戰。為了有效的管理目的地，目的地管理部門需要綜合理解旅遊者的興趣、到訪地點、遊客的個人體驗，並能夠預測未來的旅遊需求。產生於社交媒體的大數據，提供了個體體驗的細節，並能夠提供時間、人口信息等細節，可以幫助目的地管理部門理解市場特徵和行為。Miah，Vu，Gammack和McGrath等作者使用DSR方法論 (Design Science Research Methodology)，設計、開發並解釋了大數據解析法 (Big Data Analytics)，該方法可以用來分析社交媒體大數據，用以支撐目的地管理組織的策略決策。DSR方法論包括三個階段和七個指導原則。三個階段是：識別商業問題和創造物（Artefact，本文中的創造物就是大數據解析法）的類型，創造物的標準和評估，研究創造物的貢獻並與結果聯繫起來。七個指導原則是：設計一個創造物 (Design as an Artefact)，辨別與之相關的問題 (Problem Relevance)，設計評估標準 (Design Evaluation)，研究的貢獻 (Research Contribution)，研究的嚴密性 (Research Rigor)，將創造物設計成一個搜索的過程 (Design as a Search Process)，與其他研究的聯繫 (Communication of Research)。利用DSR方法論和Flickr網站上公開發布的帶有地理標記的照片，本文設計了大數據解析法，包括四個技術，分別是：文本元數據處理（旨在找到具體的反映某些遊客感興趣的對象的關鍵詞），地理數據聚類（使用P-DBSCAN演算法，利用提供照片的遊客數量和上傳的照片數量的信息來標識高度拍攝活動的區域，以找到熱門旅遊地點集群），代表性照片識別（最常出現在照片中的物體，代表了旅遊者的體驗和興趣），時間序列數據建模（用來預測遊客需求，揭示季節性旅遊模式以便未來的計劃和決策）。四種技術結合起來，能夠演示和解釋不同類型的數據（文字標籤、人口信息標籤、圖片內容和時間），為目的地管理者提供了對旅遊者行為和觀念更為綜合的洞察。大數據解析法在墨爾本案例中的利用，證明了本文提出的方法能夠識別遊客行為的主要模式和趨勢，目的地管理者可以根據這些信息進行目的地管理決策。

原文鏈接：http://www.sciencedirect.com/science/article/pii/S0378720616303573

數據挖掘——撥開未來的面紗

圖片來源：pixabay.com

與前兩篇文章利用社交媒體大數據進行研究不同，本文的數據來自於我國旅遊上市企業1998-2010年間公布在股票市場的財務信息，通過對這些數據的深度挖掘，來預測旅遊企業的經營風險。Hui LI和Jie Sun兩位作者將已收集的數據集（旅遊上市企業財務信息）隨機分成訓練集和預測集兩個部分。將訓練集的數據放入機器學習程序中，由程序從數據中發現規律，將企業經營情況分為失敗和未失敗兩類。然後將預測集中的數據放入機器學習程序中，觀察程序判斷的結果與實際情況的區別，得出程序預測的準確率。

在現實中，經營失敗的旅遊上市企業數量遠小於經營順利的企業數量。以往關於企業失敗預測 (FFP) 的研究,主要關注使用均衡數據集進行預測，即選取一個經營順利的企業與經營失敗的企業配對，從而形成均衡數據集。這顯然是與現實情況不同的，基於這種數據集構建的預測模型無法反映現實情況。本文的一個突出貢獻是，採用上採樣法 (Up-Sampling Method) 對現實中不平衡的數據集進行糾正。即，選擇一個失敗樣本和與它相鄰最近的失敗樣本，計算兩者之間的曼哈頓距離，然後產生一個0到1的隨機距離參數，新產生的失敗樣本等於原始樣本加距離參數乘以原始樣本與最近鄰的曼哈頓距離 (Manhattan Distance)。如此反覆，刪除重複樣本，即可得到一個均衡的數據集。

利用我國旅遊上市公司1998-2010年間的財務信息，本文在現階段常用的主要預測模型，如：SVM（支持向量機，Support Vectors Machine）, BSVM (Bagged SVM), NNsSVM（最近鄰支持向量機，Nearest-Neighbour Support Vectors Machine），BNNsSVM (Bagged NNsSVM), NNs （神經網路，neural networks）, BNNs (Bagged NNS), Logit Regression （Logit 回歸）, MDA（多元判別分析，Multivariate Discriminate Analysis）之間進行了比較，發現在修正過的均衡數據集中，NNsSVM模型的預測準確率最高。這種預測工具可以使旅遊企業及時預知自己的經營狀況，提前採取措施避免經營失敗。

作為一名文科出身的柚子，在剛剛接觸大數據的時候，我的內心是拒絕的，各種數據搜集和處理技術讓本柚眼花繚亂。但是，不管作為研究對象還是研究工具，大數據都能給我們帶來很多新成果與新啟發。因此，借用胡適先生的一句話與各位對旅遊大數據研究感興趣的柚友們共勉：「怕什麼真理無窮，進一寸有一寸的歡喜。」祝大家2018年在研究上有新的突破！

原文鏈接：http://www.sciencedirect.com/science/article/pii/S0261517711001464

我是柚子的分割線，正文完！

柚子

點心

Up-Sampling Method：針對旅遊數據集不均衡的現象（經營失敗的旅遊上市企業數量遠小於經營順利的企業數量），有兩種解決方式，一種基於演算法，另一種基於數據集。基於數據集的修正不均衡數據集的方法有三種，分別是：下採樣 (Under Sampling)，即刪除數據集中的多數樣本，使多數樣本和少數樣本數據平衡，但會減少模型中數據的數量；過採樣 (Oversampling)，指重複現有少數樣本，但會導致訓練集和測試集包含相同樣本，從而導致過度擬合；上採樣 (Up-Sampling)，利用已知現有少數樣本，產生新的少數樣本，從而增加數據集中少數樣本數量，以達到多數樣本與少數樣本數量均衡，產生均衡數據集。本文中的上採樣方法，選取一個失敗樣本以及與它最近的失敗樣本，計算兩者之間的曼哈頓距離，然後產生一個0到1的隨機距離參數，新產生的失敗樣本等於原始樣本加距離參數乘以原始樣本與最近鄰的曼哈頓距離。

Come and see 本期參考文獻有哪些~

參考文獻：

[1] Pasquale D. V., Gioconda M., Valentina N., & Giustina S. (2017). Creating value from Social Big Data: Implications for Smart Tourism Destinations. Information Processing andManagement, in press, available online 1 November 2017.

[2] Miah, S. J., Vu, H. Q., Gammack, J., & Mcgrath, M. (2016). A big data analytics method for tourist behaviouranalysis. Information & Management, 54(6).

[3] Hui, L., & Jie, S. (2012). Forecasting business failure: the use of nearest-neighbour support vectors andcorrecting imbalanced samples - evidence from the chinese hotel industry. Tourism Management, 33(3), 622-634.

往期回顧

作者簡介

校稿柚子：周澤鯤，博士生，南開大學旅遊與服務學院；

策劃柚子：王斐，本科生，南開大學旅遊與服務學院；

欄目責編：陳增祥，博士，副教授，中山大學國際金融學院。

關於我們

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 綠柚智識 的精彩文章:

TAG:綠柚智識 |