讀《數據挖掘》,讀懂數據挖掘!
隨著教育部公布2017年度普通高等學校本科專業備案和審批結果的通知,目前申請獲批數據科學與大數據技術專業(專業代碼:080910T)的高校已增至278所。在獲批高校越來越多的同時,如何在專業建設過程中選擇適用教材,卻逐漸成為了各大高校面臨的一大難題。
而早在2016年,清華大學博士、南京大數據研究院院長劉鵬教授就聯合國內多所高校從事一線教學科研任務的專業師資,開始編寫大數據系列教材。目前,《雲計算》、《大數據》、《大資料庫》、《數據挖掘》、《深度學習》、《大數據可視化》、《虛擬化與容器》、《大數據實驗手冊》等本科系列教材陸續出版,可為大數據教學提供系統的教材支撐。
今天為大家重點推薦介紹《數據挖掘》,以後還會陸續推薦其他教材,歡迎持續關註:
《數據挖掘》概述
本書是國內眾多高校採用的知名教材《雲計算》(1~3版)的姊妹篇(《雲計算》名列中國計算機類圖書被引用量第一名),與《大數據》在內容上實現互補,適合作為相關專業教材,也可作為大數據開發人員和愛好者的學習和參考資料。
《數據挖掘》主要內容
本書作為大數據人才培養叢書之一,定位於大數據挖掘技術與應用。本書系統地介紹了數據挖掘演算法理論與方法、工具和應用,包括經典數據挖掘演算法,大數據環境下常用數據挖掘演算法的優化,大數據新常態下催生的數據分析方法(如推薦系統、鏈接分析與網頁排序、互聯網信息抽取、日誌挖掘與查詢分析)、工具與應用。
《數據挖掘》大綱
第一章——緒論
通過閱讀本章讓讀者快速地了解「什麼是數據挖掘」,對數據挖掘有一個初步了解。首先講述數據挖掘的基本概念,包括數據挖掘定義、數據挖掘對象、數據挖掘特性、數據挖掘的過程以及數據挖掘起源和發展歷程。然後介紹常用的各類數據挖掘工具,分析每個工具提供的功能及其特點。最後討論數據挖掘主要的應用場景和典型應用。
第二章——數據預處理與相似性
數據是數據挖掘的目標對象和原始資源,數據質量優劣對數據挖掘最終結果起著決定性的作用。原始數據通常存在著雜訊、不一致、部分數據缺失等問題,為了達到較好的挖掘結果,有必要根據數據的類型特點進行清理、規範化、約簡、離散化等預處理工作,減少錯誤信息對挖掘演算法干擾從而達到提升數據挖掘結果的準確率和有效性目的。數據對象之間的相似性計算是聚類、最近鄰分類、異常檢測等經典問題的基礎知識,與數據對象屬性類型密切相關,需要根據數據類特徵作區分處理。本章介紹數據挖掘任務中常見的基本數據類型,重點講解數據預處理和數據相似性度量相關基礎知識,為本書後續章節演算法學習做準備。
第三章——分類
分類是一種很重要的數據挖掘技術,也是數據挖掘研究的重點和熱點之一。分類的目的是分析輸入數據,通過訓練集中的數據表現出來的特性,為每一個類找到一種準確描述或者模型。由此生成的類描述用來對未來的測試數據進行分類。儘管這些未來測試數據的類標籤是未知的,仍可以由此預測這些新數據所屬的類。也可以由此對數據中每一個類有更好的理解。本章主要介紹了分類的基本概念、決策樹、貝葉斯分類、支持向量機和實例應用。
第四章——回歸
回歸是一種基於統計原理,對大量統計數據進行數學處理,並確定變數(或屬性)之間的相關關係,建立一個相關性的回歸方程(函數表達式),並加以外推,用於預測今後的因變數的變化的方法。回歸分析被廣泛應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。本章重點介紹回歸的基本概念、一元回歸分析、多元回歸分析和邏輯回歸分析等,最後用一個實例,用預測的方法給房子定價。
第五章——聚類
「物以類聚,人以群分」,聚類(Clustering)是人類認識世界的一種重要方法。聚類就是按照事物的某些屬性,把事物聚集成簇,使簇內的對象之間具有較高的相似性,而不同簇的對象之間的相似程度較差。聚類是一個無監督的學習過程,聚類是要找到對象的特徵,是進一步分析和處理數據的基礎。在商業上,聚類能幫助市場分析人員從客戶基本庫中發現不同的客戶群,並且用購買模式來刻畫不同客戶群的特徵。在生物學上,聚類能用於推導植物和動物的分類,對基因進行分類,獲得對種群中固有結構的認識。本章主要介紹了劃分聚類、層次聚類、基於密度聚類的方法和實例應用。
第六章——關聯規則
關聯規則是一種描述性的而非預測性的方法,經常用於發現隱藏在大型數據集背後的,項集之間的有趣關聯或相互關係。作為一種無監督分析技術,關聯規則在購物籃分析、點擊流分析、推薦系統、醫療診斷和科學數據分析等方面得到廣泛應用。本章重點講解布爾關聯規則中的Apriori演算法和FP-growth演算法,介紹約束性關聯規則、增量式關聯規則和多層關聯規則的概念與研究現狀,最後將關聯規則應用於銀行業中,有效挖掘個人信用關聯情況。
第七章——常用大數據挖掘演算法優化改進
隨著「信息爆炸」時代的來臨,數據挖掘的應用日趨廣泛。許多商業決策者利用數據挖掘技術從海量的數據中獲取有用的信息,為以後企業更好地決策提供幫助。然而,傳統的數據挖掘演算法在面對海量數據的時候,由於各種原因,執行效率低下,已經不能夠滿足人們日益增長的性能需求,需要尋找更加高效的演算法或者執行策略。為了解決這一系列效率低下的問題,本章對常用大數據挖掘演算法進行優化和改進,並將改進後的演算法應用到具體的實例中。本章主要介紹了分類演算法、聚類演算法、關聯規則,對這些演算法進行了優化和改進。
第八章——推薦系統
推薦系統(Recommendation System,簡稱RS)技術,根據用戶的興趣、行為、情景等信息,把用戶可能感興趣的內容主動推送給用戶。近年來,推薦系統技術得到了長足的發展,不但成為學術研究的熱點之一,而且在電子商務、在線廣告、社交網路等重要的互聯網應用中大顯身手。本章首先介紹了推薦系統的概念,其次重點講解了目前流行的基於內容的推薦和協同過濾技術,接下來對其他推薦技術進行綜述性介紹,最後,介紹了如何運用協同過濾演算法實現電影推薦的一個實例。
第九章——互聯網數據挖掘
互聯網數據挖掘是互聯網技術與數據挖掘技術深度融合的新領域。
2012年始智能手機的廣泛應用,全球電子商務飛速迭代發展,雲計算技術大量應用落地而催生的信息化建設落地,AI技術應用等等都為我們提供海量且較易於獲取的新數據。
如何面對和處理這些數據,如何獲得優質、可靠信息,為預測決策提供更好的支持,一直是數據挖掘探索和追求的。本章結合數據倉庫技術、非傳統統計學意義的數據分析視角,重新審視數據治理和數據挖掘。
對經典應用Google PageRank、時間序列分析、構建數據挖掘模型、使用模型進行知識發現、日誌分析挖掘工具等進行基本的介紹和解讀,通過關聯傳統的財務數據管理技術、繪畫中構圖技法及數據挖掘模型應用,電商物流及教育信息化數據挖掘案例,從人的原點出發,以人為本考慮,展現數據挖掘的更深內涵。
附錄A 數據挖掘工具Weka
附錄A主要介紹Weka簡介、Explorer界面、Knowledge Flow界面、Experimenter界面等內容。
附錄B Spark 機器學習庫 MLlib
附錄B主要介紹Spark 簡介、Spark RDD、SparkMLlib簡介、SparkMLlib數據類型、SparkMLlib演算法庫等。
附錄C 大數據與人工智慧實驗環境


TAG:劉鵬看未來 |