當前位置:
首頁 > 知識 > 科學、計算科學與數據科學

科學、計算科學與數據科學

科學是如實反映客觀事物固有規律的系統知識,計算科學是,數據科學也是。


1、科學的概念


什麼是科學?這是一個古老而又年輕的課題。在日常生活中,人們常把「科學」或「科學的」理解為「真的」、「客觀的」和「進步的」等,簡單且模糊的意會,但又似乎明了的概念。科學一詞便成為最受人們敬重的知識名稱。

從詞源上說,英文science來源於拉丁文scientia,意為知識和學問。」世紀中葉,西方科學傳人中國,science被譯為「格致」,是格物致知的簡稱,用來指研究事物而獲得知識。日本明治時代學界將science譯成「科學」,1893年康有為引進並使用「科學」一詞,嚴復在翻譯《天演論》時,將science譯為「科學」,用於替代「格致」,此後一直沿用至今。

科學、計算科學與數據科學



達爾文給科學的定義是:科學就是整理事實,從中發現規律並做出結論。達爾文的定義指出了科學的內涵,即事實與規律。科學要發現人所未知的事實,並以此為依據,實事求是,而不是脫離現實的純思維空想。至於規律,則是指客觀事物之間內在的、本質的和必然的聯繫。

愛因斯坦則認為:設法對人們雜亂無章的感覺經驗加以整理,使之符合邏輯一致的思想系統,就稱科學。科學作為一種存在的事物和完整的事物,是人類認知的事物中最客觀的。但科學在形成過程中,作為追求的目的,卻如同人類的其他認知一樣,是主觀的,也是受心理制約的,以至對「科學的目的和意義是什麼?」這一問題的答案,因時代或地域而異,因人而異。


美國《韋伯斯特新世界詞典》對科學的記載是:科學是從確定研究對象的性質和規律這一目的出發,通過觀察、調查和實驗得到的系統知識。這一定義首先規定了科學的對象,確定研究對象的性質與規律。這一確定研究對象是不依賴於人們認識主體而存在的客觀世界,它有著自己的規則和發展規律。


中國《辭海》(1999年版)對科學的記載是:科學是運用範疇、定理和定律等思維形式反映現實世界中各種現象的本質和運動規律的知識體系。


綜上所述,科學(science)是反映現實世界中各種現象及其客觀規律的知識體系。科學作為人類知識的最高形式,它是人類文化中一個特殊的組成部分,已成為人類社會普遍的文化理念。


科學的發展日新月異,早已形成一個龐大的家族。因此,科學的種類繁雜,從不同角度對科學有著不同的分類方法。例如,按照研究對象的不同,科學可分為自然科學、社會科學和思維科學,以及總結和貫穿這三個領域的哲學和數學;按照與實踐聯繫的不同方式,科學可分為理論科學、技術科學和應用科學等;按照人類對自然規律利用的直接程度,科學可分為自然科學和實驗科學兩類;按照人類目標的不同,科學又分為廣義的科學和狹義的科學兩大類。

廣義的科學概念是自然科學人文科學社會科學等所有學科的總稱,狹義的科學概念則專指自然科學,有時甚至直指基礎理論科學。


自然科學(Natural Science)是以自然界為主要研究對象,運用實證、理性和臻美等方法,揭示自然的奧秘,獲取自然的真知。


人文科學(Humanities Science)是以人類作為主要研究對象,運用實地考察、詮釋和啟示等方法,認識人、人性和人生的意義,提升人的精神素質和思想境界。


社會科學(Social Science)是以社會領域為主要研究對象,運用調查、統計和歸納等方法,把握社會規律,解決社會問題,促進社會進步。


傳統的科學手段有兩種,即理論研究實驗研究,計算則是在運用這兩種手段時常用的一種輔助手段。但是,由於計算科學(包括計算理論、演算法、硬體和軟體)的快速發展,計算業已上升為科學的另一種手段,它能夠直接並有效地為科學服務,這已為大量的事實所證實。例如,為數學科學服務的「關於體育賽制的數學問題」,為地球科學服務的「計算機模型:超大陸是如何分裂的」以及為考古科學服務的「計算機解開斯芬克斯之謎」等。

美國能源部發布的報告認為,高端計算目前已經與理論研究、實驗手段一起,成為獲得科學發現的三大支柱。因此,理論科學、實驗科學和計算科學是推動人類文明進步和科技發展的重要途徑。這種認識不僅被科學文獻廣泛引用,而且還通過了美國國會的聽證,獲得美國聯邦政府和私人企業報告的認同。不僅如此,現在我們還知道,隨著大數據技術的日益成熟,數據密集型科學成為了科學發現的第四大支柱。


詳細可以參見《大數據時代的新科學範式:數據密集型科學》一文。


儘管人們對計算科學和數據科學的發展趨勢還有不同的看法,但是計算和大數據作為科學發現的新重要手段已被廣泛認同,相信會有越來越多的科研人員積極涉足計算科學和數據科學的領域。不僅是物理學家、化學家和生物學家,而且整個科學、工程和技術領域內的專家都是如此。根據美國一位心理學家的研究報告顯示,計算很可能是人類的一種本能,而大數據則提供了計算的原材料。


類似馬克思說過:「一門學科,只有運用了數學才算是成熟了的學科」,我們認為:

一門學科一旦運用了計算科學和大數據,它就成為了先進的學科。


沒有計么比應用新工具更有助於知識的發現。在不同的時期,人們的業績不同,與其說是他們天賦智能所致,倒不如說是他們所擁有的工具和軟資源不同所致。


2、計算科學與計算學科


從計算機的角度來說,計算科學(Computing Science)是應用高性能計算能力預測和了解客觀世界物質運動或複雜現象演化規律的科學,它包括數值模擬、工程模擬、高效計算機系統和應用軟體等。目前,計算科學已經成為科學技術發展和重大工程設計中具有戰略意義的研究手段,它與傳統的理論研究和實驗研究一起,成為促進重大科學發現和科技發展的戰略支撐技術,是提高國家自主創新能力和核心競爭力的關鍵技術因素之一。


西方發達國家一直將計算科學視為關係國家命脈的國家戰略給予高度重視。美國通過實施1993年的高性能計算與通信(High Performance Computing and Communication,HPCC)計劃、1996年的加速戰略計算創新(AcceleratedStrategic Computing Initiative,ASCI)計劃、2002年的高產能計算系統(High Productivity Computing Systems,HPCS)計劃,在許多領域內獲得了一系列重大科技成就,促進了高科技與國民經濟的持續發展和國防高科技武器的出現,並獲得基礎科學研究的強大創新能力。同時,直接推動了高效計算機快速發展,為當今高科技的世界領先地位奠定了重要基礎。


2005年6月,在由美國總統信息技術諮詢委員會(The President s Information Technology Advisory Committee,PITAC)提交的「計算科學:確保美國競爭力」(Computational Science: Ensuring America s Competitiveness)報告中,再次將計算科學提升到國家核心科技競爭力的高度。報告認為,21世紀科學上最重要的、經濟上最有前途的前沿研究都有可能利用先進的計算技術和計算科學而得以解決。報告強調,美國目前還沒有認識到計算科學在社會科學、生物醫學、工程研究、國家安全以及工業改革中的中心位置,這種認識不足將危及美國的科學領先地位、經濟競爭力以及國家安全。報告建議,應將計算科學長期置於國家科學與技術領域中心的領導地位。


學科是指高等學校中講授或研究知識的分科,它是高校教學和科研的細胞組織。從計算的角度來說,利用計算科學對其他學科中的問題進行計算機模擬或者其他形式的計算而形成的諸如計算物理、計算化學、計算生物等學科統稱為計算學科(Computational Discipline)


從計算機的角度來說,計算學科(Computing Discipline)是對描述和變換信息的演算法過程進行系統的研究,它包括演算法過程的理論、分析、設計、效率分析、實現和應用等。計算學科的基本問題是:什麼能被(有效地)自動進行。計算學科來源於對數理邏輯、計算模型、演算法理論和自動計算機器的研究,形成於20世紀30年代後期。


計算學科是在數學和電子科學基礎上發展起來的一門新興學科,它既是一門理論性很強的學科,又是一門實踐性很強的學科。幾十年來計算學科自身發展的實踐表明,一方面,圍繞著一些重大的背景問題,在各個分支學科和研究方向上均取得了一系列重要的理論和技術成果,推動了計算科學向深度和廣度發展;另一方面,由於發展形成了一大批成熟的技術並成功地應用於各行各業,更多的人將計算科學看成是一種高新技術。


1988年,美國計算機協會(Associationfor Computing Machinery,ACM)和國際電氣電子工程市學會計算機分會(Computer Society of Institute for Electrical and ElectronicEngineers,IEEE-CS)聯合完成了一份重要報告,即「計算作為一門學科」(Computing as a Discipline)。該報告把計算機科學和計算機工程統一稱為計算學科,認為兩者沒有基礎性的差別。並且第一次給出了計算學科的定義,提出了計算學科的詳細內容、研究方法和一系列教學計劃等。

科學、計算科學與數據科學



1990年,ACM和IEEE-CS聯合攻關組在「計算作為一門學科」報告的基礎上,提交了「計算教程1991」(Computing Curricula 1991,CC1991)報告。該報告的主要成果是提取了計算科學中反覆出現的12個核心概念,並提出「社會的、道德的和職業的問題」主領域,使計算學科方法論的研究更加完備。


1998年,ACM和IEEE-CS建立了計算教程2001(ComputingCurricula 2001,CC2001)聯合工作組,並於2001年12月提交了最終報告。該報告分析了自CC1991報告以來近10年的時間裡,計算領域中來自技術和文化方面的巨大變化,這種變化對教學設計和教學方法有著深刻的影響。同時將CC1991報告劃分的11個主領域擴展為14個主領域,提出了計算機科學知識體(Computer Science Body of Knowledge)的新概念,為計算學科核心課程的詳細設計奠定了堅實的基礎。


此後,ACM和IEEE-CS聯合工作組做了大量的工作,將計算學科分為計算機科學、軟體工程、計算機工程、信息技術和信息系統等五個分支學科或專業,先後提交了IS2002、SE2004、CE2004、 CC2005、IT2008、CS2008、IS2010和CS2013等報告。


計算機科學(ComputerScience,CS):計算機科學研究的範圍很廣,從計算理論、演算法基礎到機器人開發、計算機視覺、智能系統以及生物信息學等,其主要工作包括尋找求解問題的有效方法、構建應用計算機的新方法以及設計與實現軟體。計算機科學是計算各個分支學科的基礎,計算機科學專業培養的學生,更關注計算理論和演算法基礎,並能從事軟體開發及其相關的理論研究。


軟體工程(SoftwareEngineering,SE):軟體工程是一門利用系統的、規範的、可度量的方法來開發、運行和維護軟體的學科,其主要目標是開#系統模型以及在有限預算內生產高質量的軟體。軟體工程專業培養的學生,更關注以工程規範進行的大規模軟體系統開發與維護的原則,儘可能避免軟體系統潛在的風險。


計算機工程(ComputerEngineering,CE):計算機工程是對現代計算系統和由計算機控制的有關設備的軟體與硬體的設計、構造、實施和維護進行研究的學科。其主要領域包括計算機系統、電路和信號、人機交互、演算法與複雜性以及網路等。計算機工程專業培養的學生,更關注設計並實施集軟體和硬體設備為一體的系統,如嵌入式系統等。


信息技術(InformationTechnology,IT):信息技術是一門針對社會和各企事業單位的信息化需求,提供與實施技術解決方案的學科。其主要工作涉及對計算機軟體和硬體、計算機網路等相關技術與產品的選擇、評價、集成、應用和管理。信息技術專業培養的學生,更關注基於計算機的新產品及其正常運行和維護,並能使用相關的信息技術來計劃、實施和配置計算機系統。


信息系統(InformationSystems,IS):信息系統是指如何將信息技術的方法與企業生產和商業流通結合起來,以滿足這些行業需求的學科。其主要領域包括電子數據處理系統、管理信息系統、決策支持系統、辦公自動化系統、電子商務與電子政務、商務智能和企業資源規劃等。信息系統培養的學生,更關注信息資源的獲取、部署、管理和使用,能夠分析信息需求和相關商業過程,能詳細描述並設計出與目標相一致的系統。


根據最新的Computing Curricula,我們可以將計算學科的知識體(Body of knowledge)大致分為如下12個部分:


數學基礎與計算理論


程序設計語言與演算法設計


計算系統


通訊與網路


數據管理與信息系統


信息與網路空間安全


電子器件與硬體工程


軟體開發與軟體工程


人工智慧與智能系統


圖形、多媒體與可視化


商務信息技術


交叉與前沿


3、數據科學


在《數據科學、數據技術和數據工程》一文中我們指出:數據科學是對大數據世界的本質規律進行探索與認識,是基於計算科學、統計學、信息系統等學科的理論,甚至發展出新的理論,研究數據從產生與感知到分析與利用整個生命周期的本質規律,是一門新興的學科。

科學、計算科學與數據科學



同樣,套用上面科學的含義,我們可以得出:數據科學(Data science)是反映數字(數據)世界中各種現象及其客觀規律的知識體系。


數據科學以作為支撐大數據研究與應用的交叉學科,其理論基礎來自多個不同的學科領域,包括計算機科學、統計學、人工智慧、信息系統、情報科學等。數據科學的目的在於系統深入地探索大數據應用中遇到的各類科學問題、技術問題和工程實現問題,包括數據全生命周期管理、數據管理和分析技術和演算法、數據系統基礎設施建設以及大數據應用實施和推廣。因此,多學科交叉融合是數據科學的一個特點。


一直以來,跟數據科學概念相關的概念層出不窮。下圖是第一張關於「數據科學」概念的韋恩圖,由 Drew Conway在2010年製作。圖中的中心部分是數據科學,韋恩圖表明它是黑客技術、數學、統計學和其他實質性的專業知識的組合。

科學、計算科學與數據科學



進幾年來,關於數據科學領域的概念韋恩圖非常多,並且越做越好。如果你想查看關於這個方面的詳細歷史,這裡有一篇文章可以關註:Battle of the Data Science Venn Diagrams。但是最近,對這個概念的討論又有了新的進展。2016年,Gregory Piatetsky-shapiro 製作了一個不同的概念圖,其中有兩點最引人注目:數據科學不再處於圖的中心位置;並且他定義數據科學的方法也有所不同。最新的研究室是利用數據科學與其他學科(如人工智慧、機器學習、深度學習、大數據、數據挖掘)的關係來對其進行定義。由此得出的定義是,數據科學是人工智慧、機器學習和大數據的交集,並與數據挖掘有著本質性聯繫,它是數據挖掘的擴展集和後繼術語。


這兩個圖示可能看起來完全不同,但是它們的確有很多相似之處:Piatetsky-shapiro 的圖示也運用了 Drew Conway 的韋恩圖中的黑客技術、數學、統計學和其他實質性的專業知識。


與傳統計算機和軟體工程等學科相比,數據科學具備獨特的學科基礎和內涵。數據科學的理論基礎涉及統計分析、商務智能以及數據處理基礎,具體包括以下幾個方面:


大數據表達理論方面:包括大數據的生命周期、演化與傳播規律,數據科學與社會學、經濟學等之間的互動機制以及大數據的結構與效能的規律性。


在大數據計算理論方面:研究大數據的表示以及大數據的計算模型及其複雜性。


在大數據應用基礎理論方面:研究大數據與知識發現,大數據環境下的實驗與驗證方法以及大數據的安全與隱私。


相比較而言,計算機科學學科是研究演算法的科學,而數據科學不局限於此,其研究對象是數據,隨著計算機應用從以計算為中心逐漸向以數據為中心的遷移,數據科學的內涵和外延更加寬泛。而軟體工程學科中的相關技術提供了數據分析處理的工具以及具體開發時的範式。數據處理技術是數據研究領域的一種重要的研究方法,用於研究和發現數據本身的現象和規律。


數據科學也不同於傳統的商業智能和統計學,商業智能主要從商業模式、經濟管理的角度對數據應用進行研究,而統計學提供具體的數據分析處理的方法論,但是面對PB級以上的海量數據,大數據的分析不能停留在獲得概率分布結果,也不能滿足於對細節問題的數據挖掘,而是需要更簡單、有效的問題求解方法,爭取從大數據中獲得新的知識,構建新的應用範式。


大數據不僅僅是信息技術領域的事情,它的典型特點就是與應用密切結合。在當前階段,大數據概念的提出和被廣泛接受才不過三四年,屬於發展初期。大數據的概念已經被社會各個層面廣泛認可,開始從線上走到線下,越來越多的人從企業管理、社會治理、科學研究等領域探討大數據的應用。這種來源於應用的關於大數據技術的爆髮式需求,為一門新型的獨立學科的形成和發展帶來了挑戰和機遇。


以上說的都還是比較理想的情況。任何領域的研究,若要成為一門科學,一定是研究共性的問題。針對非常狹窄領域的某個具體問題,主要依靠該問題涉及的特殊條件和專門知識做數據挖掘,不大可能使大數據成為一門科學。數據科學的研究需要在一個領域發現的數據相互關係和規律具有可推廣到其他領域的普適性。抽象出一個領域的共性科學問題往往需要較長的時間,提煉「數據界」的共性科學問題還需要一段時間的實踐積累。至少未來5至10年內計算機界的學者還需多花精力協助其他領域的學者解決大數據帶來的技術挑戰問題。通過分層次的不斷抽象,大數據的共性科學問題才會逐步清晰明朗。


當你剛邁入科學門檻的時候,計算科學來了;當你還沒明白計算科學的時候,數據科學來了。不是我不明白,世界變化太快!


參考文獻:


李國傑, 程學旗, 大數據研究:未來科技及經濟社會發展的重大戰略領域, 中國科學院院刊, 2012.


周傲英, 錢衛寧等, 數據科學與工程:大數據時代的新興交叉學科, 大數據, 2015.


計算思維


David Donoho, 50 years of Data Science,2015.


請您繼續閱讀更多來自 Hadoop大數據應用 的精彩文章:

TAG:Hadoop大數據應用 |
您可能感興趣

科學史與人類學
論科學的數學化
《環球科學》專訪倫敦大學學院計算神經科學家李兆平
科學辨
基礎研究、哲學與科學傳播
科學巨星與科學傳播
科學家故意製造的偽科學
數學與計算機科學大師馮·諾依曼
如何閱讀科學與數學
曾紅葵:艾倫腦科學研究所的「大科學」
錢學森與人體科學:一個科學家的丹道氣功研究
偽科學與危科學咋個區分?
黎樂民:理論與計算化學的關鍵科學問題和學科重要研究前沿
《環球科學》招聘學術產品運營、科技記者、科學編輯、青少年科學項目運營、市場經理
從傳統科學到近代科學
南京審計大學統計與大數據科學研究院成立
物理學與腦科學裡的「美」與「丑」
錢學森院士:技術科學的研究之路
科學處與新中國早期的科學領導工作