「老炮兒白碩創業了」CCIR阡尋科技聊知識圖譜和NLP如何落地金融
1 新智元報道
2017年7月12日~14日,第二十三屆全國信息檢索學術會議(簡稱CCIR2017)在上海市召開。中國中文信息學會主辦的每年一次的「全國信息檢索學術會議」(CCIR)系列, 已成功舉辦過9屆,是國內信息檢索領域最主要的學術活動之一。
會議上,阡尋科技執行董事、總經理熊昊博士做了《Chance in 阡尋-讓知識對接價值》的主題演講。熊昊博士結合技術、產品及應用領域,介紹了通過自然語言處理和知識圖譜等人工智慧技術,在金融領域的產品以及實現場景的落地情況。
NLP+金融界老炮兒白碩創業了,踩過坑才知道痛點
阡尋科技(Chancein)於2015年12月成立,一家專註於金融科技領域的人工智慧公司,由中國證券市場及自然語言領域泰斗級人物白碩先生所率領的團隊共同發起設立,公司創始人及高管團隊多擁有博士學位。
白碩現任阡尋科技董事長,曾任中科院計算所研究員、博士導師、軟體室主任、軟體方向首席科學家。2002年任上海證券交易所總工程師。同時白碩是新智元智庫專家之一。新智元就創業和金融+AI技術等問題對白碩進行了專訪,如下:
新智元:您為什麼在這個時期選擇創業?
白碩:之所以選擇創業是多種因素的交匯的結果,這段時間既是中國創業氛圍最好的時期,也是人工智慧大有用武之地的黃金時期,更是我個人在技術和業務方面的豐富積累互相交融滲透、產生大量想法的時期。我和阡尋科技的其他創業夥伴們對此一拍即合。
新智元:現在做金融知識圖譜的公司越來越多,阡尋的知識圖譜及其相關產品有什麼優勢?
白碩:真理被大家認識到只是時間問題,我們絕不把希望寄托在「眾人皆醉我獨醒」上,這既不可能也不現實。
我很高興有越來越多的公司認識到知識圖譜對於金融基本面分析的重要作用,這既驗證了我們的判斷,也從一個側面肯定了我們的前期努力。
但是認識到應用知識圖譜是一個正確的方向是一回事,在一個個領域中耕耘細節,精準把握分析師最核心的靜態知識關聯和動態事理推理路徑是另一回事。
此外還有自然語言處理和知識圖譜對接這樣一個受到人工智慧界普遍關注的技術挑戰在裡面,無論在領域知識方面、產品方面還是技術方面,都有很多很多的坑,真正踩過了才知道痛點。
新智元:熊昊博士在演講中舉例,通過AI系統通過自動收集橡膠相關新聞,竟然成功預測了橡膠的漲跌,這個例子讓人印象深刻。如此智能,是不是說明NLP在金融領域達到了人類水平?從現有數據上看,阡尋預測成功了多少案例,有沒有一個成功率的指標?
白碩:重大事件的基本面分析往往都是個案驅動的,其在現實生活中發生概率本就不高,再被系統完整捕捉到,就意味著相應的領域知識及其關聯和推理方面準備必須非常充分。
目前供實驗研究用的測試集的積累還很不足,在這種情況下談指標有點奢侈。這裡必須有一個大規模資源建設的過程,而資源建設全面鋪開需要大量投入,這不是一個初創公司能夠馬上做起來的。
我們一方面要把公司經營行為、資本運作行為這類領域無關共性事理先做好,另一方面也在有序推進領域相關的資源建設,期貨、化工、汽車是我們目前在資源建設上相對聚焦的領域,因此在橡膠事件中,與這幾個領域有直接關聯的推理鏈條被完整捕捉下來。隨著領域知識圖譜的資源建設進一步鋪開,阡尋科技的產業鏈推理功能還會被進一步放大,產生更加靚麗的表現。
以下是熊昊博士的演講內容。
金融遇上知識圖譜和NLP
全球範圍內,包括中國BAT等各大互聯網公司都在研究自然語言處理、知識圖譜和深度學習,行業目前正在爭奪落地場景。阡尋讓金融遇見知識圖譜和NLP技術。
知識圖譜作為一種大規模的知識表示形態,其核心是以圖的方式存儲知識並向用戶返回經過加工和推理的知識。
其中行業知識圖譜是數據分析從簡單的量化模型走向更為複雜的價值判斷和風險評估必經的一環,是把專家經驗和實體關係逐步變成可重用、可演化、可驗證、可傳播的知識模型的方法。
對金融領域,事件的發生是有徵兆的,通過對事件進行捕捉形成事理推理型的知識圖譜,以描繪事件發生的順承關係和因果關係。
據熊昊博士介紹,阡尋構建了證券領域的實體知識圖譜庫和事理知識圖譜庫。與推理引擎的相結合,形成了一個可解釋、可追蹤的分析體系,從而對市場上實時發生的各種事件做即時投資分析和風險預警。與此同時,在風險徵兆預警方面,不僅能告訴用戶危險了,還能闡明什麼徵兆積累到了什麼程度,可能引發什麼後果。
基於對金融行業的理解,他們建立了事理知識圖譜,其描繪了金融事件發生的順承關係和因果關係。運用自然語言理解、自然語言生成技術、語義分析技術對金融領域的新聞、研究報告、上市公司的公告進行分析,生成自動文摘和研究報告和機器自動寫作。
自然語言處理技術,目前是人工智慧進行場景落地時的一大難點重點。在面對不同領域不同場景時,需要大量的領域背景知識以提高語義分析的精準度。自然語言理解,是阡尋多個產品的重要觸發源解析的關鍵。阡尋科技的產業鏈知識圖譜,不僅在沿圖譜進行智能推理時起到決定性作用,還能大大提高金融領域自然語言理解的準確度。
大眾的情緒對金融市場有影響嗎?有,通過對新聞、評論等文本中的主觀性信息進行分析,來挖掘其態度和情緒。這就是情感傾向性分析和觀點挖掘,也是NLP研發的內容之一。
除了互聯網常用的詞典,阡尋科技在金融領域長期積累了一批獨有的詞典,包括金融本體庫,程度副詞詞典,以及情感詞典等等。在對互聯網文本進行分詞、詞性標註、命名實體識別、依存句法分析後,定義相應的情感計算規則來量化文本對某實體的情感傾向性。
網上資訊如何轉化成「真金白銀」
根據熊昊博士介紹,阡尋科技的產品蝴蝶投研,會基於市場和經濟知識,沿產業鏈知識圖譜對市場上發生的各類事件進行即時推理分析。蝴蝶投研首先自動採集新聞,通過自然語言理解將事件導入系統,然後結合行業產業鏈、知識圖譜和推理決策系統的推理體系,運用機器語言將其翻譯成自然語言,輸出結論,自動生成影響、分析報告。
以橡膠期貨的關鍵事件為例。
系統捕捉到四個關鍵事件,分別為:2016年2月半掛牽引車由負轉正、青島保稅區天然橡膠庫存下跌、天然橡膠主要產地泰國爆發特大洪水和合成橡膠價格倒掛。首先是從重點網址上捕捉到新聞,然後利用自然語言技術從此類新聞中解讀關鍵屬性,將各個關鍵屬性輸入系統處理引擎,並得出結論。通過對歷史事件的回測來完善、驗證系統。
2016年2月,蝴蝶投研系統採集到2016 年1月份半掛牽引車有關銷量的新聞。
系統經過深度學習技術和自然語言處理的語義挖掘和分析文字含義相關技術,截取到關鍵字「2016年1月」「半掛牽引車」「銷量」「同比增長」「18.62%」,輸出需要推理分析的事件:「2016 年1月份半掛牽引車銷量同比增長 18.62%」。
通過調動智能研究調度器的推理決策模型,進行數據分析推理,輸出結論:
在1月份銷量同比漲幅18.62%之前,半掛牽引車持續一年處於0 或負增長狀態,中國的基建,貨物的運輸特別是大宗商品的運輸都離不開重卡,所以重卡銷量一直被市場當做是中國經濟周期回升的先行指標。該消息的出現意味著中國經濟基本面出現止跌回升態勢。同時利好重卡上市公司,如A股的中國重汽、福田汽車、港股的為財動力、中國重汽。
2016年7月21日,系統採集到新聞:「中國橡膠信息貿易網發布青島保稅區天然橡膠最新庫存量,天然橡膠庫存13.07 萬噸,環比下降13.89%,同比下降43.39%」。同樣,經過系統自然語言處理分析之後得出需要推理分析的事件:「2016年7月中天然橡膠青島庫存跌至13萬噸」。
然後得出推理結論:
根據系統數據顯示,青島保稅區的橡膠庫存約為20萬噸左右。一旦跌至15萬噸以下,如果下游需求激增,天然橡膠上漲就成大概率事件。
接著,2016年12月,一個重磅消息在市場傳開—泰國爆發特大洪水,當地膠農割膠受到嚴重影響。對於此「2016年12月泰國爆發特大洪水」事件,系統經過分析,得出結論。
在這次特大洪水後,2017年2月,當投資者還在為當前行情到底是回調還是反轉時,系統採集到橡膠倒掛的相關新聞。這件事情發生的時候,財經門戶網站報道的寥寥無幾,但系統的數據異常監控功能第一時間挖掘出來,同時通過對其的自然語言處理,得出需要分析的事件:「合成橡膠價格倒掛超過4000點」。
經過分析推理,輸出結論:
四大產品和產學結合
阡尋科技提供四個產品,除了蝴蝶投研,還包括:
A股智能研究院——針對個股和行業,生成研究報告和及時報告。
A股智能諮詢——包括新聞摘要、公告分析等多個維度的A股智能諮詢。
證券智能E助手運用知識提取技術、自動寫作技術,把繁雜資料整理形成合規報告、上市(掛牌)公司公告等各類型的金融證券報告,減輕證券金融工作人員重複且格式化的工作,提升金融機構的運轉效率。
目前阡尋已與東吳證券等多家券商和私募達成戰略合作協議,雙方將就阡尋技術在網路金融、資產管理、智能投研/顧、投行、風險控制等業務領域進行合作應用與落地工作,藉此推動證券行業智能化發展。同時,阡尋科技基於本身技術優勢和技術紅利,作為技術服務商與傳統行業機構進行合作,共同提升傳統行業業務場景。
阡尋的發展得到了海內外高校組織的支持,目前已經和中科院計算所、信息工程所、復旦大學計算機學院和香港大學計算機系建立了合作關係,共同建設阡尋的產品體系。
熊昊博士表示,阡尋感恩學術界多年的滋養帶來的深厚技術積累,樂於回饋學術界,支持學術發展。阡尋深知技術的進步一日千里,很多源頭都在學術界,要持續不斷地從學術交流中學習新事物、開拓新思路。阡尋紮根在產業第一線,擁有大量既接地氣又具挑戰性的應用場景,願與學術界開展廣泛合作。今天的信息檢索內涵已經大大擴充,產業界對信息檢索學術研究的期望值也大大提升。他們表示衷心希望CCIR始終引領國內信息檢索學術研究的前進方向,在國際上產生更大影響。希望國內外信息檢索學術界能源源不斷地向產業界輸送創新技術和創新型人才,與產業界共成長。


※「警惕AI鴻溝」楊靜:人工智慧鴻溝或將割裂世界
※NTIRE2017超解析度挑戰賽冠軍方案,增強版ResNet奪得最優性能
※AI產業數據稱王,GAN和遷移學習能否突圍BAT壟斷?
※AI時代能否誕生谷歌、亞馬遜和Facebook類巨頭
※消費者買單少,語音助理公司在自作多情?
TAG:新智元 |
※在產業知識圖譜里,如何挖掘金融的AI「智慧」
※清華等提出ERNIE:知識圖譜結合BERT才是「有文化」的語言模型
※用AI創建AI用的知識圖譜
※中國計算機協會YOCSEF TDS「知識圖譜」專題探索班
※陪伴我學習NLP、知識圖譜的那些資源
※松鼠AI 智適應教育CEO周偉:AI智適應技術幫助每個學生構建自己的知識圖譜
※科大訊飛也推AI智能硬體,K12「知識圖譜型」AI教育「真香」?
※阿里巴巴AAAI 18論文CoLink:知識圖譜實體鏈接無監督學習框架
※知因智慧任亮:用知識圖譜構建清晰的「產業世界」,做中國最大的產業鏈金融AI賦能運營商
※妙健康、阿里雲合力打造NLP健康知識圖譜
※Nature:繼DNA之後,科學家再構建蛋白質 「遺傳圖譜」
※AI2等提出自動知識圖譜構建模型COMET,接近人類表現
※HPAIC人類蛋白質圖譜分類挑戰賽金牌經驗分享
※Nature子刊:非編碼RNA癌症藥物基因組圖譜新突破
※拯救頑疾大作戰!IDC繪中國醫療AI生態圖譜,英偉達獻新殺器
※知識圖譜:知識圖譜賦能企業數字化轉型|AI 研習社職播間第 3 期
※CCKS 2018最佳論文:南京大學DSKG,多層RNN用於知識圖譜補全
※中譯語通JoveMind榮膺「年度前沿科技產品」,知識圖譜構建能力獲行業權威認可
※中國乳腺癌人群PI3K/AKT通路突變圖譜「面世」
※AFIP/ARP病理圖譜的過去、現在和將來