KDD 2018 即將召開,先來一波 Keynote 預覽
一年一度的 ACM SIGKDD (知識發現與數據挖掘會議)今年將於 8 月 19 日至 23 日在英國倫敦召開,屆時,雷鋒網 AI 科技評論也將緊密追蹤,並為大家帶來一線精彩報道。
作為這一會議的最重要的組成部分之一,KDD 今年的 Keynote 邀請了 4 位嘉賓,將分別對數據挖掘的應用場景和方式、最新進展以及未來發展趨勢進行解讀。
雷鋒網對本屆 KDD Keynote 嘉賓介紹及演講主題整理如下:
David Hand:倫敦帝國理工大學數學系名譽教授、高級研究員
David Hand 教授是一位高級研究員,也是倫敦帝國理工大學數學系的名譽教授,曾任倫敦帝國理工大學統計學院院長。他是英國科學院院士、英國精算師協會的榮譽研究員,曾擔任過兩屆皇家統計學會主席。此外,他也是英國統計局的非執行董事、歐洲統計諮詢委員會成員、加拿大統計科學研究所國際科學諮詢委員會成員、劍橋信息數學研究所顧問委員會成員。
David Hand 教授已經發表了 300 篇論文、出版了 29 本圖書,涵蓋數據挖掘原理、信息生成、測量理論與實踐、不可能性原理以及國家福利等主題。在 2002 年,他被授予皇家統計學會的 Guy 獎章。2012 年,他和他的研究小組為信貸業的貢獻贏得了信用收藏和風險獎。2013 年,他又因對研究與創新的服務獲得大英帝國官佐勳章。2016 年,他還被授予 George Box 獎章。
主題:數據科學在金融中的應用
數據科學在金融中的應用為主觀決策到數據和事實驅動決策的轉變所帶來的力量提供了一種完美的闡釋。在 50 多年的時間裡,整個金融行業都歷經了顛覆性的變革。數據科學的金融應用主要集中於三個寬泛的領域:精算和保險、消費金融和金融投資。精算和保險是最早一批採用數據科學理念的工作,在這一概念出現之前,甚至在電腦被發明出來之前,數據就在這一領域得到應用。然而現在,最先進的數據科學技術並沒有在這些領域中得到應用,這也意味著現代數據分析理念在金融行業的應用具備相當大的潛力。
消費金融被視為數據革命中最早也是最成功的案例之一。早在 20 世紀 60 年代第一張信用卡出現的時候,針對客戶在金融交易中產生的龐雜數據的分析技術就極大地推動了數據挖掘和數據科學概念的發展。但如今,新模型類型以及新數據來源,正為數據科學的重大發展帶來諸多機遇。
在金融投資中,經典經濟學中的「有效市場假說」認為金融市場具有不可預測性。這一說法雖然看起來很像真的,但本質上還是錯誤的。這意味著使用先進的數據分析方法去發掘傳統理論與實際現狀間的細微差異成為可能。其他的數據科學問題,如數據質量、道德與安全,以及對模型局限性的了解的需求,在金融應用的情境中變得尤其突出。
Alvin E. Roth:諾貝爾經濟學獎獲得者、斯坦福大學經濟學教授
Alvin E. Roth 是斯坦福大學的 Craig & Susan McCaw 經濟學教授、哈佛大學經濟學和工商管理的 Gund 教授。他從事於博弈論、實驗經濟學和市場設計等領域的研究,並曾與其他人共同獲得了 2012 年諾貝爾經濟學獎。
主題:市場設計和計算機化市場
交易和集市是歷史悠久的人類活動產物,但近年來,它們變得越來越重要,部分原因為當今市場日益計算機化。而智能手機的出現,也使得它們無處不在。我們可以通過智能手機預訂前往機場的汽車、抵達倫敦的飛機以及到達後需要住宿的酒店房間。當我們這樣做時,我們留下了一條很容易與其他數據流結合的數據軌跡。這不僅改變了我們與市場的互動方式,也改變了我們看待和管理隱私的方式。我將討論計算機化市場的一些最新進展,並推測未來的一些發展趨勢。
鄭宇懷:牛津大學統計學係數據機器學習教授、DeepMind 研究科學家
鄭宇懷是牛津大學統計學系的統計機器學習教授,也是 DeepMind 的研究科學家。他在多倫多大學獲得博士學位(師從 Geoffrey Hinton),在加州大學伯克利分校(與 Michael Jordan 共事)和新加坡國立大學(獲得李光耀博士後獎學金)負責博士後工作。在來到牛津大學之前,他曾在加州大學洛杉磯分校蓋茨比計算神經科學系任講師,也曾任牛津大學學院的輔導研究員。
他是 ICML(國際機器學習大會)2017 、AISATS(人工智慧與統計國際會議) 2010 的 programme co-chair,也曾在 NIPS(神經信息處理系統大會)2017 上進行了特邀大會演講。他的研究領域是數據和智能的計算基礎,也從事規模化的機器學習、概率模型、無參數貝葉斯以及 DeepMind 的研究工作。
主題:面向一些小數據問題的大數據學習
機器學習的諸多新進展,都是由可用數據在數量和多樣性方面的爆髮式增長和數據處理所使用的大幅增長的計算資源所推動。這就引出了一個問題,即機器學習系統是否一定需要大量的數據才能順利完成任務。在元學習、終身學習、學會學習、多任務學習等問題的研究中,一項重大的新進展便是發現身邊的數據集往往具有異構性,並且事實上,一個大數據集比每一組都面向不同任務的很多更小的數據集,看上去更具生產力。例如,在推薦系統中,每個用戶都可被當做一組小的相關數據集對應的不同任務,並且 AI 的一個聖杯就是如何開發從少量數據中就能夠快速學會完成新任務的系統。
這種情景下,問題就變成了如何利用任務之間的相似性來「學會快速學習」。實現這個目標的一個視角是,所有的任務都可以看作是從這個世界中取樣得到的,讓系統完成大量任務以使其學到豐富的關於這個世界的先驗知識,並藉助豐富的知識來快速解決未來遇到的新任務。
這是一個非常活躍、充滿生機和多樣性的研究領域,最近也有許多不同的研究方法被提出。在本次交流中,我將從概率和 DeepMind 的角度來表達我對這個問題的看法,並介紹我在最近參與的這個方向上的一些努力。
周以真:哥倫比亞大學數據科學研究所所長
周以真教授是哥倫比亞大學數據科學研究所所長和計算機科學教授。她是卡耐基梅隆大學的計算機科學顧問教授,自 1985 年起就在學校擔任教職,曾兩度擔任計算機科學系的負責人。2013-2017 年,她曾擔任微軟研究院的副總裁。2007-2010 年,她曾擔任國家科學基金會計算機與信息科學與工程理事會的副主任。她獲得了麻省理工學院的本科、碩士和博士學位。
她主要研究高可信計算、規範和驗證,並行和分散式系統,程序設計語言以及軟體工程等領域的課題。她目前的興趣點是安全和隱私的基礎,高可信人工智慧則是她的另一個關注點。迄今為止,她共曾擔任 ACM 月刊與 ACM 通訊等 12 個期刊的編委。
她現在還是以下機構的成員:醫學藍絲帶專家組國家圖書館、美國藝術與科學學院所屬的科學、工程和技術諮詢委員會、純粹與應用數學研究所理事會、數學界女性協會指導委員會、阿里巴巴達摩院技術諮詢委員會。此外,她還是美國藝術與科學院、美國科學促進協會、國際計算機協會(ACM)以及電氣與電子工程師協會(IEEE)的 Fellow。她曾於 2011 年獲得 CRA 傑出服務獎,於 2014 年獲得 ACM 傑出服務獎。
主題:數據,為美好
我用「數據,為美好」這一口號來表達我們整個數據科學界該如何促進數據科學的發展,尤其是如何培養未來幾代的數據科學家。
首先,我們應該使用數據科學來為人類和社會造福。數據科學應該用以改善人們的生活,以及人、組織和機構之間的關係。數據科學在與其他學科協作時,應該用以幫助解決例如氣候變化、教育、能源、環境、醫療保健、不平等以及社會公正等社會層面的巨大挑戰。
其次,我們應該以良好的方式使用數據。首字母縮寫詞 FATES 可以看做是「good」意義的詳細解釋。Fairness(公正)意味著我們建立的模型可用來做出無偏見的決策或預測。Accountability(責任)指的是為機器所做出的的決策,確定和匹配人或物的責任。Transparency(透明)指向最終用戶保持開放和透明,讓他們了解到例如分類、決策、預測等結果是如何得出的。Ethics(倫理)是說需要關注倫理和隱私保護相關數據的採集和使用,以及我們所建立的自動系統做出的的倫理決策。Safty(安全)和 Security(防護)則是指要確保我們所建立的系統是安全的(沒有任何危害)和防護性的(能抵禦惡意行為)。
接下來就請大家關注雷鋒網對 KDD 的持續報道吧。


※喪屍目標檢測:和你分享Python 非極大值抑制方法運行得飛快的秘訣
※Tensorflow 估算器的加速站,你捨得錯過嗎?
TAG:雷鋒網 |