當前位置:
首頁 > 最新 > 大數據開創教學科研新範式

大數據開創教學科研新範式

本文發表於 《數字教育》 2017年第6期(總第18期)理論探索欄目,頁碼:6-9。轉載請註明出處。

摘 要:數據規模大、數據提取和分析的速度快和數據結構類型多樣三方面的技術進步,構成了大數據的本質特徵。大數據是推動當前時代發展的關鍵性歷史因素。面向未來的教育改革發展,信息技術成為創新實踐的基本手段。在大數據技術支撐下,以慕課為主的教學模式和計算驅動型科研範式,正在逐步走向成熟,成為教學科研的重要發展趨勢。

關鍵詞:大數據; 教育; 慕課; 計算型科研

一、大數據的技術特徵

早在2011 年,美國高德納公司專家艾德里安從硬體環境和軟體工具角度,對大數據進行了描述,指出大數據在本質上是一種「收集、管理和處理數據」的能力進步。麥肯錫全球研究院如此定義大數據:「大數據是指大小超出了典型資料庫軟體工作收集、存儲、管理和分析能力的數據集。」可以看出,所謂大數據,實際上是一個比較意義上的概念。簡單說,就是在量變到質變的意義上超越了「以前的」「常規的」數據, 因而稱之為「大數據」。大數據處理能力的最終形成,主要取決於三個因素:第一,在摩爾定律支配下,數據量的指數式增長,為大數據運行提供了基礎條件; 第二,多核中央處理器和海量並行處理架構的運用, 導致計算機運算能力飛躍發展,為大數據運算提供了核心動力;第三,基於MapReduce 並行運算編程程序的Hadoop 等大數據處理平台的推出,使計算機突破處理非結構化數據的能力邊界,最終達到處理海量數據的大數據處理能力。以這種能力為基礎,人類發現規律、預測未來和改造世界的能力,都將獲得「質」的飛躍。

基於這些認識,可以將大數據之「大」,總結歸納為3 個「V」:分別指數據規模(Volume)、數據提取和分析的速度(Velocity)和數據的多樣性(Variety)。 首先看數據規模。根據摩爾定律,計算機存儲信息的物理容量將以每兩年翻一番的指數速度增長,這是大數據快速生長的物質性規律。根據國際數據公司(IDC)的預計,到2020 年,來自個人電腦、智能手機、射頻識別、社交網站、氣象中心、監控攝像等各種設備的全球數據總量將達到40Zb。大數據的第二個顯著特徵是速度。海量並行處理架構是存儲並分析海量數據的基礎機制。這個數據處理機制的原理是, 打破數據限定由一個CPU 單元和磁碟的中央伺服器進行管理的傳統數據處理模式,將數據切成多個不同的數據塊,各自獨立地分配CPU 的管理資源,這一變化如同車流從單車道駛入多車道,將倍增式地提高數據運行速度。最後是數據的多樣性,傳統數據主要來自關係型資料庫中的數據,這類數據具有一個既定的結構背景,其格式、值域、來源等屬性,會被預先定義,因此也被稱為結構化數據。與結構化數據相對,不具備結構背景,數據屬性沒有被預先定義的數據,稱為非結構化數據。處於二者之間的,還有半結構化數據和多結構化數據。比如,在Word 文檔里寫的一篇文章、一張圖片、一段視頻都屬於非結構化的數據。根據IDC 的統計,超過80% 的企業數據都是非結構化數據,而整個互聯網中的數據,非結構化數據佔到了75% 以上,而且非結構化數據的增長速度遠遠高於結構化數據的增長速度。[1]顯然,結構化數據是較容易處理的數據。而非結構化數據則是相對難以處理的, 非結構化數據以差異化為基本特徵,這些數據有的可能是文字,有的可能是圖片,有的可能是一個數字,有的可能是一段聲音和影像。非結構化數據處理技術的成熟,意味著大數據時代正式拉開帷幕。就目前發展來看,泛在網和人工智慧為我們初步勾畫出了未來世界鮮明的數據化特徵。

二、大數據時代的發展趨勢

歐盟委員會關於物聯網的願景描述,為我們展現了大數據時代的未來發展狀況:「它將成為普遍存在的公共基礎設施,以全球通用的標準通信協議為基礎,將融合既有的計算機網路、大眾媒體網路、社會服務網路,打造一個全球的、泛在的、無縫的信息科技平台。」[2]無論最終發展狀態如何,建立在泛在計算技術之上的信息網路社會,必然包括如下三個方面的特性。第一,泛在的基礎網路。泛在網在概念上應該理解為所有網路的連接和集成,包括感測網、互聯網、物聯網,以及通過移動網路和固定寬頻等技術將多個應用終端之間相互連接而形成的局部網路。這中間的關鍵之處在於,所有的網路都要連接在基礎網路之上,最終以一個整體的形式呈現。第二,泛在的通信活動。泛在網路為地球萬物建立了相互溝通和反饋的系統,這是一個無時無刻不在運行的系統,網路上的每一個節點,都在時時產生、接收和處理信息,永遠處於動態通信的運動狀態。第三,泛在的智能應用。泛在網的最終目的,是通過各種各樣的智能應用,優化人類世界的生產和管理活動,無論是私人應用、公共應用還是商業應用,都是通過網路大數據技術,為人類提供更精細、更科學和更智能化的服務。

圖靈測試界定了計算機和人類智能的理論邊界。2014 年,計算機程序尤金·古斯特曼假裝成一個13 歲的小男孩,在一系列每次5 分鐘的問答之後,成功騙過與其對話的測試人員,最終以33% 的通過率,成為世界上第一台通過圖靈測試的機器人。[3]古斯特曼的誕生,將機器人的研發和應用再次推向新的高潮。今天的機器人科技,已經得到日新月異的發展,其應用範圍早已經從傳統的工業領域擴展到家居、教育、醫療、戰爭等眾多領域,成為一個龐大的機器人群體。進入21 世紀以來,機器人正在逐步從科研階段過渡到產業化階段。從工業機器人到農業機器人,再到家居服務機器人,從移動機器人到仿生機器人,再到仿人機器人,從水下機器人到飛行機器人,再到太空探索機器人, 從康復與助理機器人到外科手術機器人,再到微型醫療機器人,一個龐大的機器人產業已經呼之欲出。據不完全統計,我國教育機器人在2010 年的銷售額已經達到4 億元人民幣,根據ABI Research 的預測,全球智能機器人的產值將很快突破1000 億美元大關,其中,亞太地區將佔有最大的市場份額。[4]

2017年7 月,國務院印發《新一代人工智慧發展規劃》,將「利用智能技術加快推動人才培養模式、教學方法改革,構建包含智能學習、互動式學習的新型教育體系」確立為發展智能教育的重點任務。可見, 面向未來的教育改革發展,必然以信息技術支撐下的教學科研模式創新為基本手段。目前來看,以慕課為主的教學模式和巨型計算機支撐的「第三種科研範式」, 正在逐步走向成熟。

三、基於大數據技術的慕課教學模式

在教學領域,由大數據掀起的慕課(MOOC)潮流正在席捲全球。MOOC 的含義,可以分解為四項: M 代表Massive,意味著慕課規模之大,傳統課程一門課可能只有一個班級的幾十個人在學,而慕課課堂的一門課可能有數萬人甚至幾十萬人同時學習;第一個O 代表Open,意思說慕課是一個開放性的學校, 不要求你其他資格條件,慕課只要一個電子郵箱,就能註冊學習;第二個O 代表Online,這表明慕課的學習是在線進行的,不受時空限制,你可以蜷在被窩裡聽老師講課,也可以在機場的候機室里打開手機做幾道數學題,如果你願意,等地鐵的5 分鐘碎片時間, 也可以用來學習幾個英語單詞;最後一個字母C 表示Course,說明這是一個課程,是一個系統性的理論知識學習。

以edX 等為代表的慕課教育,被稱為是繼印刷術之後,教育領域將要面對的最重大的變革。相對於傳統教育,慕課開創的教學革命,將從四個方面展開:首先,慕課運用網路經濟的共享模式,將絕大部分的教育成本攤入網路機制內部,會大幅度地降低受教育者的經濟負擔,從經濟條件上降低社會整體的教育成本。其次,慕課改變了傳統教育模式的時空條件,受教育者既可以在晚飯後的夜間學,也可以在星期日的上午學,既可以在自家書房學,也可以在公共巴士上學。再次,慕課是全球化的教育資源平台,是抹平區域資源配置不平衡,幫助邊遠地區提升教育水平的有效手段。在慕課的網路平台上,世界是平的,無論你是在大山深處還是在偏僻漁村,只要能夠接入基礎網路,就能和世界一流大學的學生,同時學習相同的課程。最後,也是最深刻的一個方面在於,作為大數據平台的慕課,最核心的看家本領是對學生的具體學習行為進行動態分析和同步調整優化。根據學習者個人化的學習行為和反饋內容,慕課平台將不斷調整學習者學習的內容、方式和節奏,將學習變為一個高度個性化的建構過程,為學習者量身打造最高質量的學習模式,最大限度地提高學習效率。舉例來說,慕課平台會通過學習者考卷里答對的題和答錯的題的分布情況,幫學習者找出其知識體系上的薄弱環節,有針對性地進行知識點的補漏和強化,它還能根據學習者的學習行為和反饋情況,分析出是聲音、文字、形象還是綜合視頻的方式更有利於提高個人的學習效率,並以此為內容和標準,逐步發展出最適合學習者的個性化的學習內容、方式和節奏。再如,從更細節的層面分析,慕課平台還能通過對學習者滑鼠、鍵盤的活動軌跡的採集和分析,了解到不同人對於同一知識點的反應情況,他們用了多少時間,有沒有重複或強調,等等, 當這些數據達到一定量之後,將作為一種規律反饋給教師,以幫助他們改善教學。

四、大數據推動計算型科研範式

隨著大數據和人工智慧的深度發展,一種以計算機主導和驅動的新型科研模式,逐步發展成熟。傳統的科研模式,主要有理論分析和實驗驗證兩種類型。理論分析側重於邏輯推理和公理化的體系構建。實驗驗證是自然科學研究的主要方式,側重於從感性經驗上認識世界,通過控制條件下的科學實驗過程,觀察特定的現象,找到事物之間的因果聯繫。在這兩種傳統科研類型中,計算只是作為一種輔助的技術手段而存在。定量分析只是對定性分析的具體化和精確化描述,始終無法取代定性分析獨立完成科研任務。而在大數據和人工智慧技術的驅動之下,計算作為一種科研手段,正在顯示出獨立的價值,逐步發展成為一種完備的科研模式。早在1852 年,格斯里就提出了四色猜想。但是,100 多年來,諸多世界一流數學家試圖加以證明,都以失敗告終。直到1976 年6 月,電子計算機經過1200個小時的計算,推導出100 多億個邏輯判斷,最終完成了證明,將四色猜想上升為四色定理。顯然,在計算機問世之前,這種計算複雜度,必然處在人腦的極限之外,是單憑人腦不可能完成的任務。計算機在科研中不可替代的獨立地位,由此得到證明。

今天,巨型電子計算機已經具備模擬核爆炸瞬間物理變化的能力,物理世界的核爆實驗,正在逐步轉移到計算機上模擬進行。谷歌公司運用大數據技術,成功預測了2009 年H1N1 流感傳播的趨勢和範圍,並將其預測寫成論文發表在國際頂級期刊Nature 上。谷歌公司的這項研究成果在學界引起震動,因為這項研究繞過了流行病學和社會傳播學等理論模型,直接依據網路熱詞與流感區域的相關關係,通過大數據的網路數據採集和分析預測能力計算出結論。在數據主義看來,貝多芬的《命運交響曲》、股市的經濟震蕩和流感病毒看似有天壤之別,實則是一回事,背後都是數據流的不同變化,都可以用同一個演算法工具進行處理。[5]

2017年6 月19 日,全球超級計算機TOP500 榜單公布。由我國自主研發的超級計算機「神威·太湖之光」 第三次蟬聯冠軍。「神威·太湖之光」計算機由40960 個我國自主研發的「申威26010」眾核處理器組成,運算峰值性能達到12.5436 億億次/ 秒,持續性能 9.3015 億億次/ 秒。據介紹,如果以2016 年市場主流的計算機配置為標準,「神威·太湖之光」的運算能力要相當於200 多萬台電腦的能力水平。[6]「神威·太湖之光」問世一年來,已經在天氣氣候、航空航天、先進位造、新材料等19 個科研領域得到廣泛應用。平均每天完成計算任務約7000 項,全年共完成200 多萬項科研任務。對此,清華大學副教授付昊桓介紹說:「超級計算在科學與工程領域應用最早、最廣泛,應用效果最顯著,已同理論研究和科學實驗一起成為人類探索未知世界的三大科學手段,被稱為支撐科學發現的第三個支柱。」[7]

互聯網大數據的工作機制,在本質上是對元胞自動機和生物細胞神經網路的模擬。這一技術逐步走向成熟和應用,體現了人類思維科學的歷史進步。面向未來的新型科研範式,將是對牛頓、愛因斯坦以來的機械性分析、還原論方法和線性因果關係等簡單性科學理論模式的超越,是對以相關性、無限性、湧現性和非線性因果關係等為基本原理的複雜性科學思維的一般化擴展。這種數據密集型和計算驅動型科研模式的確立,必將對未來的科研活動組織和評價機制提出新要求。在可預見的將來,海量數據平台和跨學科、跨領域、跨國界和地域的科研協作網路,將成為未來學校科學研究的基礎設施和手段。

參考文獻:

[1]劉軍.Hadoop 大數據處理[M]. 北京:人民郵電出版社,2013:4.

[2]劉永謀, 吳林海,葉美蘭. 物聯網、泛在網與泛在社會[J]. 中國特色社會主義研究,2012,(6):100-104.

[3]新浪科技. 超級計算機首次通過圖靈測試[J]. 創新科技,2014, (13):55.

[4]宋章軍. 服務機器人的研究現狀與發展趨勢[J]. 集成技術,2012,1(3):1-9.

[5]尤瓦爾·赫拉利. 未來簡史[M]. 林俊宏, 譯. 北京: 中信出版集團,2017:333.

[6]柴逸扉.「神威·太湖之光」神在何處? [N]. 人民日報海外版,2016-06-28(09).

[7]王偉健. 用國產晶元的神威太湖之光究竟厲害在哪?[DB/OL]. (2017-06-21)[2017-08-25].http://tech.163.com/17/0621/11/ CNEUPVS800097U7R.html.

作者簡介:

陳璞(1978— ),男,安徽淮南人,副研究員,研究方向為教育管理、金融科技與互聯網法律。

歡迎關注數字教育公眾微信號


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數字教育 的精彩文章:

TAG:數字教育 |