《大數據系統基礎》實踐項目期末答辯順利舉行 校企聯手打造精品實踐項目見真章
近期,由清華大學研究生院和數據科學研究院(以下簡稱:數據院)共同開設的清華大學大數據能力提升項目《大數據系統基礎》實踐項目期末答辯在清華大學六號教學樓順利舉行。20位企業導師作為評審參與答辯成績評分,他們的評分與數據院副院長、授課教師王建民和授課教師徐葳擁有同樣的比重,企業導師和授課教師從數據思維的運用、分析工具使用的成熟度、項目成果質量等方面分別考察一個學期以來同學們的學習、實踐成果。
回顧過去的四個月,提供課程實踐項目的企業和跨學科組隊共同完成項目的學生在相互的溝通磨合之中一起成長進步。去年9月,數據院面向對數據分析技術有實際需求的企業為該課程廣泛徵集實踐項目,社會反響強烈。隨後數據院針對報名企業組織了項目徵集答辯會,近30家企業代表紛紛登上講台從各自的企業情況、項目背景和需求三方面做了簡要介紹。經過選課學生和授課老師的激烈「擇選」,最終21個項目入選該課程。經過11月中期答辯的考驗和錘鍊(期中答辯報道),同學們對授課老師和企業導師針對性的點評和指導進行了充分的消化吸收,本次期末答辯同學們的表現可圈可點,王建民老師表示:「與期中答辯相比,可以看出同學們利用工具進行數據分析的水平顯著提高,這離不開團隊成員的相互協作,更離不開企業導師的大力支持,感謝大家對這門課的付出。」
各小組代表答辯中
三尺講台,各組紛紛彰顯「真功夫」
期末答辯是對同學們《大數據系統基礎課》實踐項目最終成果的考核,考察同學們是否能很好地將大數據理論知識的積累轉化為項目的實踐能力,做項目的過程中同學們運用所學知識,在企業導師的指導下也取得了一定的成果。李宣靜同學是天津瑞能電氣「風機故障檢測」項目組的主要答辯人,她表示:「我們都是第一次接觸實際的風機故障識別問題,對業務的理解是我們遇到的第一個挑戰。當時企業沒有數據監測平台來實現產品的全生命周期管理,對於沒有業務背景的我們來說,做工作等同於『盲人摸象』。這是我們遇到的第二個挑戰,也是機會切入點。」隨著對企業需求的充分了解,小組同學決定從挖掘風機運行數據下手獲取業務經驗。他們利用卷積神經網路和2014年誕生的專註於梯度提升演算法的機器學習函數庫XGBoost,整合了192類故障及發生頻次,最終實現了故障自動診斷分析識別和風機發電功率預測等功能,並搭建了風機狀態監測平台(監測平台:http://101.5.211.17:8000/index/),實現了故障自動診斷分析識別和風機發電功率預測等功能。
來自工業工程系的王明哲同學所在的由艾漫數據提供的「自然語言處理技術在文娛行業應用」項目組。他坦言:「我們組的同學來自工業工程系、機械工程系、微電子系等,沒有一位人文社科專業背景的同學。平時接觸的工業企業居多,這個來自文娛行業的項目對我們來說也是一個很大的挑戰。」基於深厚的理工科背景,他們迅速在本學期內學習了文娛行業的基本運營規律,並且第一次嘗試在實踐中應用自然語言處理技術。他們採用深度網路與傳統詞典及規則集相結合的業內目前最先進的演算法模型,建立了基於語句級標註訓練的模型,目前模型精度為75%左右(預計模型極限精度為80%左右);隨後,小組同學緊跟熱點,選擇研究了奚夢瑤維密秀摔倒事件前後共計10天的微博評論,對數據進行處理並進行可視化的展示,完成了對目標明星、品牌的網路美譽度分析和社交媒體爬取的輿情數據分析。
企業導師和任課老師認真聽取彙報
跨學科組隊,優勢互補,充分協作
每個答辯小組都是由AB班(A班:非信息類學生,B班:信息類學生)學生共同組隊完成,跨學科和跨專業的學習也是該課程實踐項目的一大特色。組內同學根據自己的優勢,分工各有不同。來自醫學院A班的崔曦雯同學所在的小組完成的是人人貸公司提供的《基於手機通訊錄的欺詐檢驗》項目,「企業方的邱老師為我們的項目推進付出了很多精力,詳細分析了我們並不太了解的互聯網金融行業的現狀及發展趨勢。我們A班的同學逐漸將項目需求和思路明確下來,並與B 班同學進行了背景調研並對研究採用的技術路線進行了探討,在B班同學帶領下我們進行了關於graph embeding以及概率傳播的嘗試,過程中也遇到了數據量過大導致的計算緩慢、可視化方案設計與制定等實際問題。在合作過程之中,我確實發現A班和B班同學不同的長處。A班的同學擅長了解客戶需求、發現業務痛點、確定項目方向。B組同學擅長工程實現。我們意識到,A班同學提出的需求不是都會被B班滿足,但大家總能在協作中完成任務。整個學期下來,大家都收穫了真實環境下做項目的協作方法,更能體會到企業里產品經理崗和技術崗的協作經驗。這些經驗對我們將來走入工作崗位太有幫助了!」崔同學有感而發。
「實踐出真知」,企業導師為同學們點贊
在大數據系統基礎這門課上,同學們不但掌握了大數據管理的工具平台、開發環境和基本原理,培養了數據思維,應用創新能力也得到了顯著提升,同學們的表現更是得到了企業導師的充分肯定。百度項目的企業導師孫光明表示:「在紮實的數據技術能力之外,讓我們十分驚喜的是同學們敏銳的數據洞察力。他們對脫敏樣本數據進行分析後,最終迅速鎖定『基於搜索數據做信息推薦系統』這一選題,使我印象非常深刻。因為這個選題正好恰恰是契合了互聯網行業『信息分發2.0』時代的核心。同學們的項目答辯給我在日後的業務布局中也提供了一種非常新穎的思路。非常驚嘆於學生們敏銳的視角,也感謝數據院提供平台,能讓我接觸90後的想法,我非常受啟發。」
企業導師、國家發展改革委員會城市和小城鎮改革發展中心智慧城市所所長黎明講到:「在本次合作項目中,來自建築、電氣等不同背景的同學們利用各自的專業知識,以大數據技術手段對北京市內的充電網路進行了較為客觀精準的評價。同學們所做的工作為今後北京市乃至全國範圍內的充電網路規劃評價體系構建奠定了初步解決基礎。」
企業導師也對課程實踐項目給出了建設性的意見,比如對於項目的規劃和整體推進要更具計劃性、提前擬定進度表,督促項目組分階段推進等。
數據科學研究院始終致力於突破傳統的教學方式,在大數據能力提升項目中運用更好的、更讓學生接受的方式傳遞數據理念和技術知識。在《大數據系統基礎》課中引入來自業界的真實數據和項目正是成功探索之一。本課程將信息類和非信息類的學科組隊,以團隊的形式做項目,使得跨學科的學生在組內進行充分交流、互相學習、各自發揮專長。課程引入20多個豐富又真實的企業數據並讓學生和用戶進行交流,使學生在進入職場之前就有機會了解社會和企業對大數據技術解決問題的需求。其項目數量之多、企業支持力度之大,是全國乃至世界少見的教學模式探索,收效頗豐。
校企師生答辯後合影
本門課程重點介紹大數據管理的工具平台、開發環境、基本原理。使得學生熟悉典型大數據工具與平台的特性,掌握大數據處理的基本開發方式,鞏固和加深大數據分析的基礎知識。 本課程的主要內容包括: 大數據軟體棧、虛擬化、系統管理、數據清洗、數據存儲、處理框架、內存計算、文檔數據、NoSQL/NewSQL資料庫、圖數據、流數據、分析框架、數據分割、以及一致性。
本門課程主要希望通過對一系列與大數據相關的計算機系統知識的學習和動手實踐,讓學生理解大數據分析系統的軟硬體架構,了解目前可用的工具和技術上存在的挑戰。考慮到A班學生群體中有相當多的經管、社科及公共管理專業學生,A課程注重講授大數據系統工具的概念、應用場景以及商業價值。B班學生群體以信息類專業學生為主,注重講授大數據系統的原理、開發及實現。在介紹典型系統工具使用的基礎上,通過分析其實現原理與設計理論,增強學生大數據平台與工具的應用與開發能力。培養學生在工作中應用與選擇適合大數據工具的能力,同時也為有志於繼續深入學習大數據專業課程的學生創造基礎。
校對:林亦霖
為保證發文質量、樹立口碑,數據派現設立「錯別字基金」,鼓勵讀者積極糾錯。
若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到後台反饋,經小編確認後,數據派將向檢舉讀者發8.8元紅包。
同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。
感謝一直以來您的關注和支持,希望您能夠監督數據派產出更加高質的內容。


TAG:數據派THU |