上交所前總工白碩:如何破解AI金融領域裡「人智義盡」的困局?
雷鋒網AI金融了解到,伴隨著人工智慧應用於金融行業的熱潮,「高度同質化」問題愈加凸顯:一方面很多公司推出的產品定位都很相似,另一方面風投們對創業公司的技術期待也大同小異。人工智慧在金融領域似乎已經「人智義盡」——人工智慧的語義處理、創意都走到了盡頭。
「這不是一個好事情」,在近期舉辦的「2018恒生技術開放日」,上海證券交易所前總工程師、中科院博士生導師、區塊鏈及人工智慧領域專家白碩這樣說道。在他看來,正是種種思維誤區導致了這種「高度同質化」。對此,白碩從大數據、自然語義、知識圖譜三方面,詳解了當下行業內存在的同質化思維誤區,並逐一提出了不同見解。
雷鋒網AI金融對其演講內容做了不改變原意的精編:
大數據:共享誤區
現在一提到大數據就是要匯聚、要共享,如果數據不從小規模變成大規模,不進行匯聚,都不好意思說自己在做大數據和人工智慧。這其實是有誤區的。
其實很多應用單位並不情願把數據拿出來共享,可能是因為共享的收益有限,甚至沒什麼好處。不敢共享,因為這些數據一旦共享出去,便不再為你所掌控。不能共享,因為會有監管、政策、法律等方面的考慮。
這就在事實上形成了一些由邊界圍出來的數據藩籬,再者隨著中國人數據主權意識的覺醒,數據完全共享面臨的障礙短期內較難消除。
這裡有三種解決方案思路:
第一,交換模型。把自己一方數據訓練出來的模型交換給另外一方,另外一方把原始數據訓練出來的模型交換給我,不傳原始數據,而是傳模型,在傳模型的迭代過程中逐漸地實現聯合學習。
第二,同態加密。神經網涉及到線性組合,裡面有加有乘,一種還不夠,需要兩種,有一種全同態,這兩種運算放在一起是否可以模擬成一個神經網路?也不夠,因為還有非線性,這個非線性不能用加和乘來做,就要用多項式逼近,一逼近就產生誤差,誤差會有怎樣的傳播和累計這個問題沒有得到解決。需要注意的是,同態的方式只能加密輸入,不能加密輸出,輸出必須是公開的。
第三,傳假數據。把自己一方的數據訓練出模型,利用自己一方的模型生成同類型模型的假數據,把假數據傳給對方。在這方面,我參與了中科院計算所研究的工作,這項研究叫做「合作學習」,本身數據不是很複雜,就是數字的識別。
左邊是樣本,不交叉的,標籤互相不交叉,學習結果都會有提升,一方是100%,一方是0%,這邊是一方是90%是0、1、2、3、4,10%是5、6、7、8、9,傳假樣本的方式傳遞數據的量非常小,要達到接近95%以上的指標,傳輸很少的數據就可以達到,我們用傳模型的方法和每次迭代升級假樣本的全集方法量非常大,現在用樣本池非常小。
自然語言:端對端學習存在四大問題
目前的主流是端到端嵌入學習,把詞嵌入到項鏈,到把整個句子和整個符號串嵌入到項鏈。而端到端存在四方面的問題:
首先,對語言的複雜結構和承載能力還是未知數。
第二,如果單位用戶的需求複雜,靠這種學習能否應變、馬上就改,尤其是涉及到客服、涉及到對外窗口,這個話明顯已經錯了,想改對,靠學習改對是非常困難的。
第三,對領域知識和領域專家作用的輕視,總覺得數據是完整的,覺得專家的知識經驗好像可以繞開。這是不正確的,凡是自己有演算法找你要數據,有數據就可以很好地合作,就可以解決痛點,這樣的思路是錯的。
第四,與結構化的知識怎樣對接,這也是端到端嵌入方式的難點,不是說不可能,是有難點。
我現在回歸符號來做,(上圖)左邊說「這隻股票買過的都說太爛」,右邊說「這隻股票買過的都說太虧」,誰虧?誰爛?,說虧了是指買過股票的人,說爛指向股票,這樣一個指向怎樣通過符號解析的方式做出來?在這方面我們做了很大的改進,有一個新的方法,能夠非常精準地解析。
知識圖譜:過程性、動態性不夠
知識圖譜的問題是橫向共同面對的問題,大家都說知識圖譜可以做很多事情,但是同樣是知識圖譜,對知識圖譜這個概念的把握和應用的時候使用的技術是千差萬別的。
(上圖)左邊是知識圖譜發展的歷史,從描述語義的動機開始到為整個互聯網上的資源進行體系化的標註,再到本體,再到目前這樣一種很豐富的技術站形態,而且這個技術站沒有其他的技術路線可以替代的,這是不容易的,但是不夠。
來看一下我們想要做的事情,目前我們把語義要素分成第一層實體、第二層屬性或/狀態,第三層關係、第四層事件,第五層時空,第六層場景,第七層主觀認知。知識圖譜能夠做上面三層和底下四層,我們把這些語義分成本體性、過程性、輔助性,最關鍵的是過程性,目前好多研究工作都沒有往這個方向去做,這是不正常的。
最近我看哈工大發布了知識圖譜的版本,叫做「事理圖譜」,把剛才那個圖從上面三層向第四層推進了一步,這是事理圖譜在哈工大版本的呈現,就是事件和事件的推理關係、順承關係有了基礎的刻畫:
第一,需要帶參數。帶參數就是事件參與的這些實體兩兩之間有關聯,比如說前面這個事件是處罰事件,後面是整改事件,這兩個事件有交叉都共同指向這個原點,就是他們所共享的參數,如果不能在事件之間傳遞這個參數,就說明其實我們對事件的把握還很不夠。
第二,推理。大家都知道證監會中從業人員的子女、配偶和子女的配偶是不允許買賣股票。在違規買賣事件中,違規的人和交易當事人之間有一種親屬關係。(下圖)左邊是事理圖譜,右邊是傳統的知識圖譜,事理圖譜的推理過程反應到右邊要讀取相關的數據,甚至還可能改變數據。比如說撤職,在右邊的知識圖譜里,張三可能有書記、主任、會長等一系列頭銜,這些是他的任職,當左邊事理圖譜里一個事件發生了,就要在右邊把主任這個職位撤掉,我們認為這個事件是動態性的,左邊的事件激發、影響到右邊的關係,右邊的關係又會影響到左邊事件之間的順承關係、推理關係和推進。
第三,激發作用鏈。激發會有一個作用鏈,從違規到處罰、到整改,中間有一些對象是共享的,比如說違規的主體就是被處罰的主體,也是整改的主體。
所以,很多公司想利用知識圖譜技術去做行業的產業鏈分析、行業的基本面描述,但是在這個描述過程中如果不引入知識圖譜的動態性,事情就無法做到位。
(雷鋒網)


※對央行數字貨幣的猜測——無槓桿、可編程自動回籠
※背靠 30 萬家門店,悠絡客如何用運營商模式進擊智慧零售?
TAG:雷鋒網 |