直擊 SMP 2018 六大特邀報告，看社會媒體處理的多領域應用

新聞 08-05

由中國中文信息學會社會媒體處理專委會主辦、哈爾濱工業大學承辦的第七屆全國社會媒體處理大會（SMP 2018）於 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網作為獨家戰略媒體帶來合作報道。SMP 專註於以社會媒體處理為主題的科學研究與工程開發，為傳播社會媒體處理最新的學術研究與技術成果提供廣泛的交流平台，旨在構建社會媒體處理領域的產學研生態圈，成為中國乃至世界社會媒體處理的風向標。

本屆 SMP 大會主席由哈爾濱工業大學教授劉挺與伊利諾伊大學芝加哥分校教授 Philip S. Yu 擔任，程序委員會主席由哈爾濱工業大學秦兵教授與清華大學劉知遠副教授擔任。SMP 2018 的六位特邀報告嘉賓包括：李宇明（北京語言大學）、林學民（澳大利亞新南威爾士大學）、林鴻飛（大連理工大學）、張洪忠（北京師範大學）、胡小華（美國德雷賽爾大學）、李兵（中央財經大學）。

開幕式於 8 月 2 日上午隆重召開，開幕式之後是四場特邀報告，涉及到世界知識的中文表達、圖數據分析、幽默計算、社交網路中的 AI 機器人。

第一位特邀報告嘉賓是北京語言大學語言資源高精尖創新中心主任李宇明教授，他的報告題為《世界知識的中文表達問題》。

報告伊始，他表示，我國面臨著兩個問題：向世界講好中國故事和向中國講好世界故事，這兩個問題互有關聯，而在今天將重點討論世界知識的中文表達，即向中國講好世界故事。

他提到中文在國際學界「邊緣化」的問題，通過對 2006-2015 年全世界各語種發表論文情況分析，發現 SCI 論文中中文佔比僅 0.59%，在所有語言中排在第三位，在 SSCI 論文中，中文沒有進入前 10 位。

這時候，主要有三個應對之策。

其一是全民學英語，但是用外語實現知識獲取是有問題的。不可能人人都把一門外語學好，想要將英語達到母語水平幾乎不可能。此外，知識分類越來越細，不同領域的知識鴻溝越來越深，通過英語直接閱讀了解多方面科技知識難度極大，同時這種方法減少了使用漢語表達現代科技知識的機會。

其二是機器翻譯，讓機器把世界的知識都翻譯成中文，供國人使用。

他表示，隨著信息技術的發展，機器翻譯在不久的將來有望實現這一目標。但這時候，為中國人獲取信息而設計的翻譯系統，翻譯的軸心語必當是中文。此外，中國必須解決知識源頭問題，必須建立中國知識庫存的共同體。

但機器翻譯也存在「後遺症」，如知識獲取永遠「慢半拍」，要與「知識源」保持良好關係，同時也容易導致原創知識產權缺失。

這時候，應對之策三是提升中文刊物聲望，這時候需要力挺中文文本的學術評價體系，他強調，用外文提升中國學術界的國際地位是策略，提升中文的國際學術地位才是根本，需要提倡科研成果中文首發。

最後他對自己的報告內容做出總結，他表示，解決世界知識的中文表達問題十分不易，需要有耐心、有恆心、有信心，國家和知識界須有危機意識，更要通過政策支持建立「中文自信」的學術評價體系。

澳大利亞新南威爾士大學的林學民教授做了題為《Towards Big Graph Processing: Applications, Challenges and Advances》的特邀報告。

他首先介紹了圖數據在金融詐騙檢測、產品推薦、投資分析、零售服務、反洗錢、網路安全等多個領域的廣泛應用，並以 k-Core、k-Truss、k-Edge Connected、k-Vertex Connected 等多種演算法為例，結合 ICDE 2016 最佳論文《I/O Efficient Core Graph Decomposition at Web Scale》，SIGMOD 2015 年《Index-based Optimal Algorithms for Computing Steiner Components with Maximum Connectivity》等論文，闡述了 Cohesive Subgraph 的相應定義及核心思想。

結合上述演算法，他介紹了兩個領域的研究探索，一個是給定社交網路，判斷對應的核心用戶在留存及離開時，對於團體產生的影響分析；另一個是結合子圖搜索研究以社交網路為代表的多維屬性，並讓圖表在每個維度上都呈現稠密性。

結合與多家知名企業及團隊的合作，他也展現了 Cohesive Subgraph 在不同領域上的應用，比如在華為公有雲上實現人物識別、社區發現及好友推薦等功能，並將其延伸到時間維度上；此外，他們也與阿里巴巴合作構建 FLASH Query Language、Biclique 欺詐檢測及 RT Cycle 檢測，在相應的電商業務、金融業務上實現毫秒級應用。

隨後，大連理工大學的林鴻飛教授帶來令全場笑聲不斷的特邀報告《幽默計算探討》。

林老師介紹幽默從通俗層面講，形容的是有趣或可笑且意味深長的內容，而理論定義則是產生於對於同一陳述兩種不同解釋框架的混合，是期望與實際結果之間的差異、衝突或不協調。

圍繞幽默點定義及相應設計，他闡述了確定幽默強度的基本原則，包括數量、表達方式的間接性、遞進性、雙關語成分及因果關係等五大方面。隨後，他藉助大量的例子，介紹了言語幽默、指稱幽默等類別，並結合幽默的相關理論背景引出幽默計算框架：以認知語言學、情感圖譜、自然語言處理為技術基礎，以雙關、諧音、隱喻、反諷為表達方式；以笑話、相聲、喜劇、歇後語為呈現載體；最終劃分為幽默識別、笑點識別、幽默等級、幽默理解及幽默生成等應用領域。

與之相應地，他分別介紹了以 SemEval 2017 Task6 為代表的幽默等級識別，以 SemEval 2017 Task7 為代表的雙關語識別、定位與推斷，以 CCL2018 任務 2 為代表的中文隱喻識別與情感分析，以 CCL2018 任務 4 為代表的中文幽默計算等多項評測任務。

他在最後分享了諧音雙關語、語義雙關語、諧音幽默生成及相聲包袱識別等幽默計算研究在學界及業界的相應嘗試與實踐。他也指出，目前幽默計算的難點在於常識知識的應用，而中文幽默的挑戰在於「音形義結合的表示+基於常識的推理」。他總結道，幽默計算是一件並不幽默的事情，不懂幽默的智能只是機械的匹配，缺乏情感的計算也只是無趣的代碼，也進一步強調了幽默計算於自然語言理解的重要性。

北京師範大學新聞傳播學院張洪忠教授的特邀報告主題是《社交網路中的 AI 機器人：新問題與新範式》。

報告伊始，他提到社交媒體中的 AI 機器人無處不在，如微軟小冰、騰訊 babyQ 等。他表示，AI 機器人的分類，可以從功能類別上劃分，也可以從價值上（即「好」和「壞」）進行劃分，還可以從人機關係的角度劃分。社交網路中的 AI 機器人則分為聊天機器人、垃圾機器人、行動電話助手三類。

從傳播學角度看，社交網路中的 AI 機器人定義為：在線社交網路中對人的身份的扮演、擁有不同程度的人格屬性、與人進行互動的虛擬 AI 形象。

他表示，社交網路中 AI 機器人現在有兩條研究路徑：

一是從計算機科學的角度，這裡有基於社交網路信息的機器人識別系統，如機器人排名，群組識別演算法，聯結免責，「蜜罐陷阱」演算法，還有基於眾包方式和人工手段的機器人識別系統，此外還有基於特徵工程的機器學習識別技術。

二是從社會科學的角度，這裡可以從四個方向探討，一是注重效果測量的計算方法取向，二是注重道德問題的文化批判取向，三是偏重政策分研究取向，四是著眼未來趨勢的探索反思取向。

他表示，AI 機器人已經成為計算機科學和社會科學都共同關注的一個新事物，一個交叉學科的研究對象。

接下來，他介紹了自己學生的一個實驗案例，從選題背景和文獻回顧、實驗設計和分析、模擬模型設計和分析等多個方面進行了討論。他們將社交媒體群組中不存在機器人的原始實驗和社交媒體群組中存在機器人的第二次實驗對比，得出如下結論：社交機器人參與社交群組討論會改變社交群組的意見表達形勢；由於機器人缺乏對外部意見形勢的感知，儘管社交機器人的效用優於普通賬戶，但不如關鍵少數派用戶。

之後，他表示對社交網路中機器人影響的研究應該成為一個重要方向，這裡他還簡單介紹了印第安納大學 Shao 等學者，Murthy 等學者，Vosoughi 等學者的研究。

而在報告的最後，他表示，隨著技術的快速迭代，AI 機器人越來越具有人格化特徵，但這些人格化特性不同於我們正常的「人」，會為社會科學帶來新的問題。他強調，社交網路中的 AI 機器人將引來社會科學研究的新範式。

大會第二天的兩場特邀報告，內容包括文本摘要和大數據應用。

德雷塞爾大學計算與信息學學院教授胡小華作為第一位上台嘉賓，他的報告主題為《Question-based Text Summarization》。

在報告中，他首先談到 Facebook、IBM 和 Google 的文本摘要模型，Facebook 模型有 bag-of-words encoder、convolutional encoder、attention-based encoder，當時在 DUC-2004 數據集上達到頂尖水平，IBM 在 Facebook 基礎上提出一些改進，encoder 是 bi-directional GRU，decoder 是 uni-directional GRU，隨後，Google 又在這兩個模型基礎上提出改進，取得了非常不錯的效果。

隨後，他提到文本摘要的一些案例，他表示，大多數摘要受限於陳述句，這時候，提出了這樣一個觀點，問句能否幫助文本摘要？

做基於問題的摘要主要有如下原因：問題讀起來更有吸引力，問題能幫讀者變得更具互動性。他表示，基於問題的摘要並不是要替換掉陳述性摘要，而是能用來反映源文件的主旨。

之後，他提到研究問題的主要目標是確保生成的問題與文本相關，同時文本能回答生成的問題。這時候衍生出三個主要研究問題：一是問題存在於哪裡，二是如何測量問題和文本間的相容性，三是如何評估基於問題的摘要的有效性。

他提到這一系統的整體架構，第一步是問題選擇，這裡涉及到目標、方法等等，第二步是問題多樣化。接下來是一些實驗，涉及到實驗數據集、實驗設置、網路模型、評價指標、實驗結果等各個方面。

他做出如下總結：這是一個信息檢索和自然語言處理的交叉任務，包含問題選擇和多樣化的兩層框架。在問題選擇上，他探討了基於檢索的方法和數據驅動的方法。未來，他們將會延伸到多文本摘要，也將繼續擴展至不同的文本，例如新聞、科學類文章、社交媒體等等。

在報告的最後，他提到即將於 12 月在美國召開的 IEEE Big Data 2018，希望大家踴躍參與。

最後一位特邀報告嘉賓是中央財經大學國際經濟與貿易學院的李兵副教授，他的報告主題是《經濟學中的大數據應用》。他指出，經濟學（社會科學）的數據困境目前面臨追求因果關係、實驗數據有限、測量成本高昂等因素，而大數據為經濟學研究提供了低成本、客觀、迅速的有利條件。

藉助衛星遙感數據、網路平台數據、行政管理數據和文本數據等多種數據，研究者可以對經濟學進行更加深入的研究。比如，通過植被覆蓋率的變化，研究者可以推斷其對溫室效應造成的環境影響，甚至關聯到國家治理問題；通過銀行數據的調查，可以印證凱恩斯等經典經濟學理論，並延伸到階層固化問題於經濟增長的意義。

他隨後介紹了幾個研究案例，以夜間燈光資料庫為樣本，他的團隊測算出各國 GDP 增長率的燈光擬合值及最優擬合值，並通過這種方式補全了部分數據缺失的國家GDP（如羅馬尼亞、阿富汗）。同時還以此為線索，發現了一些GDP數據被高估/低估的國家。

此外，通過爬蟲抓取大眾點評上的商店名稱、地理位置、商品等公開信息，團隊將數據與第六次人口普查數據進行地理匹配，探討人口數量、人口流動及菜品之間的關係。他指出研究顯示「人口的集聚會從消費端帶來不可貿易品的集聚，最終給人口更加集聚的城市帶來更大的多樣性福利」。同時，人口流動的放開與限制需要權衡多種因素，政策制定也需要精巧的設計。

不論是考察電子商務平台對企業出口市場進入和出口規模的影響，或是基於報紙關鍵詞集的測量判斷對經濟政策的影響，本質上都是藉助大數據對經濟學進行更加廣泛的研究和調查。他最後總結道，上述成功案例表明，在用大數據研究經濟學問題時，需要關注重大現實問題，驗證重要理論問題，並發明簡單實用的方法。未來，學科交叉將成為大趨勢，學術研究的模塊化也會成為研究的新方向。

以上就是 SMP 2018 特邀報告全部內容，相信聽完這六場報告，大家勢必對社會媒體處理的內涵和外延產生了更豐富的認識和見解。接下來，雷鋒網將會持續帶來更多現場報導，敬請期待。

本文圖片來源：哈工大 SCIR 李家琦，特此感謝。

雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※2018華為開發者大會在京舉行科沃斯錢程暢聊AI如何賦能服務機器人
※DeepMind 提出 GQN，神經網路也有空間想像力

TAG:雷鋒網 |