互聯網大數據處理技術與應用
最新
04-05
本公眾號的推送以互聯網大數據技術為主,其特色為原創性、技術性。為了更好的組織推送過的文章,方便讀者閱讀,將每個月推送的文章匯總成一期,並在下個月月初發布,歡迎關注訂閱轉發。
2018年第3期
給出了2003年以來爬蟲技術的關注度變化,從Robots協議、爬行策略和爬蟲架構方面對低質量的個人、中小型爬蟲存在的問題進行了分析,指出大數據時代中爬蟲的出路。
採用互聯網大數據處理技術對社交媒體財經新聞信息內容進行分析挖掘,包括主題建模和主題的可視化。介紹了JGibbLDA工具、python的wordcloud組件的應用。
以社交媒體財經新聞為例,描述了主題建模的基本過程。不但發現了區塊鏈、人工智慧、大數據、互聯網、金融科技等當下財經新聞中的熱點話題,而且在證券業績主題中發現了「獨角獸」。在此文推送的一周之後,微信朋友圈中「獨角獸」一詞成為大家關注的主題。
從互聯網大數據處理的角度,描述了人工智慧、機器學習、區塊鏈、雲計算和互聯網等新老技術之間的關係。文中最後的一張技術圖譜有誤,現重新發布,如下圖。
針對3月5日「兩會」第一天的社交媒體財經新聞信息內容進行分析挖掘
結果展示了投資者對大數據人工智慧上市公司的總體關注和情緒指數變化,以及投資者關注的概念,結果顯示「區塊鏈」「人工智慧」「軍民融合」等主要話題得到了當天社交媒體用戶較高的關注。
作者編著的《互聯網大數據處理技術與應用》專著(清華大學出版社,2017)、同名公眾號,專註於大數據技術的相關科學和工程知識傳播,同時也為讀者提供一些拓展閱讀材料。關注後可閱讀以前推送的原創文章。歡迎選用本書做大數據相關專業的教材,有相關教學資源共享。

