人工智慧與華爾街神話
人工智慧的發展出現了一些「AI威脅論」觀點,有些人大膽預測「人工智慧將侵入及佔領華爾街」,認為在未來的世界裡計算機將全面取代人類投資者。而基金管理公司Man Group PLC的首席執行官Luke Ellis說,「如果計算力和數據生成以目前的速度持續增長,那麼,25年後99%的投資管理將涉及機器學習。」
儘管他的樂觀,但人工智慧方面所取得的重要成果目前尚未能轉化為卓越的回報。據Wired稱,過去幾年裡定量基金的平均表現未能超過對沖基金(而對沖基金的表現則未能超過股市)。
大多數人都不知道人工智慧——特別是金融領域用的人工智慧——在深入主題專業知識方面缺乏應用,因而不能創建乾淨的數據及與之相應的關係,而這卻正好是任何成功的投資戰略或人工智慧的基礎。在圍棋比賽里勝出固然有其意義,但現實世界並非是在嚴格定義空間里的一場棋賽。在現實世界中,人類改變規則、違反規則,有時候甚至不存在規則。目前的人工智慧在沒有大量人為干預的情況下是無法處理真實世界裡各種狀況的。
人工智慧被過度炒作及誤讀:系統資金表現不佳(紅線:系統基金;藍線:對沖基金)資料來源:Preqin/Wired
尋找人才時下人工智慧最大的問題之一是,具有足夠主題專業知識的人員與建立人工智慧的程序員之間缺乏交流興趣或不知道如何交流。程序員對那些自己提交給AI的數據並不理解,而分析師則缺乏對AI技術的了解,因而無法知道程序員需要了解哪些源數據及如何解釋所得到的結果。
這種脫節造成了人工智慧在金融和投資應用里眾多的公開問題:
· 大多數AI公司做的是將大部分資源用於數據管理和數據清理而不是用在技術上。
· 機器每每找出一些無效的虛假相關性,或是找到的相關性僅在過去有效,但不適用於將來。
· 許多人工智慧系統成了「黑匣子」,只是給出投資建議,卻並不說明機理或策略是什麼。如果人工智慧不能向人類表達其「思考」方式,那麼投資者怎麼會將大筆資金交給它處理呢?
金融界非常缺乏具備彌合該鴻溝的技能和知識的人,他們是金融界的寶貴人才。90%的金融服務公司都開始做人工智慧技術的研究工作,這些公司都在這個稀缺勞動力市場里找人才。
筆者曾在題為 「大銀行將在金融科技革命里勝出」的博文里提出過,大金融公司將成為技術進步的最大受益者,皆因規模和資源所致。大銀行對AI人才支出的承擔力最大,而且,他們擁有最大的財務資料庫,可以幫助他們的新程序員。
一些銀行已經在收羅必要的人才方面做出了認真的努力。瑞銀(UBS)剛推出一波AI招聘,摩根士丹利(MS)的程序員和財務顧問則聯手打造了「下一步最佳行動」( 「Next Best Action」)平台,該平台提供的機器學習可以幫助財務顧問為客戶提供個性化建議。
這些努力將會得到很好的長期回報,但現在卻仍處於初期階段。一眾金融機構要真正以有效的方式用上人工智慧還有很長的路要走。
人工智慧的大(數據)問題全球的數字數據總量每兩年翻一番。數據量呈指數增長,但大多數數據缺乏機器做分析時所需的結構。因此,AI項目收集、清理和格式化數據輸入需要無數的人力工時,而AI項目卻又是為了減少人力需求。
Virtova公司創始人Sultan Meghji指出,許多AI初創公司至少將一半資金花在數據清理和管理上。每個人都在講如何教計算機思考,但如何策劃用於機器學習的數據集卻沒有捷徑或替代品。
訓練人工智慧系統需要一套訓練數據集作為學慣用。訓練數據集大致有兩種。第一種數據集是相對較小而精確的數據集,但數據集不包含足夠多的不同種類的例子,因而有效性不太足。用這樣的數據集訓練的人工智慧在解釋訓練數據方面非常棒,但卻無法處理真實世界的多樣化和變幻莫測。
另一種訓練數據集很大但不很準確。在這種情況下,人工智慧見過大量的例子,不過有時候的數據並不正確,而且人工智慧並未得到清晰一致的指令說應該如何回應。用這些較大、但不準確的數據集訓練出來的人工智慧通常從數據中學到的一致性東西很少,並且能夠自主做的事情也很少。
要成功地進行機器學習,訓練數據集務必既準確又具有廣泛的代表性。換句話說,訓練數據需要儘可能多地準確表達現實世界中發生的事情。否則我們怎麼能指望機器去學習有用的一致性東西呢?
人工智慧的挑戰如下:在沒有好的訓練數據集的情況下,機器無法學習,同時,創建好的訓練數據集所需的時間需要大量的時間,大多數具有深入主題專業知識的人往往低估了這個時間。策劃好的訓練數據集靠這些人,但他們對這種平凡的工作卻不感興趣。另一個方法就是找許多專業知識有限的人員去完成這個工作,但這種方法到目前為止並不成功。
大(數據)問題在金融和投資世界更糟糕從理論上講,策劃訓練數據集在金融領域不應該太具挑戰性。畢竟,財務數據報表格式要遵從提交給美國證券交易委員會的官方文件。但任何外行人都很快能看出來,這些提交的文件並沒有太多的所謂結構可言(人類往往不遵守規則)。另外,即便存在的結構對於人工智慧來說也並沒那麼有用。事實上,這東西可能還真是有害。
想像一下這個場景,一台計算機想比較可口可樂(KO)和百事可樂(PEP)公司的財務狀況。計算機讀入可口可樂和百事可樂的財務報表,它怎麼能知道可口可樂的「權益法投資」和百事可樂的「非控制性聯營的投資」是一回事呢?「留存收益」與「再投資收益」是不是一回事?業界團體為了解決這個問題多年來一直在試圖建立一套標準化金融辭彙系統。
理論上,XBRL的發展可以解決這個問題。但實際上,XBRL仍然包含太多的錯誤和自定義標籤,未能達到完全自動讀取財務報表的目的。即使是最聰明的機器也需要先由具深度主題專業知識的人類進行廣泛的訓練後才能讀懂財務報告。
如果成熟的技術和專家分析師不能完成上述的配對,人工智慧在金融方面的任何努力都註定以失敗告終。俗話說,「種瓜得瓜種豆得豆」。簡單地將一堆非結構化的、未經驗證的數據塞到計算機里,然後指望這東西能提供投資策略,無異於將食品儲藏室的食品倒進烤箱里然後指望烤箱會烤出一個餡餅一樣。機器再好也沒有用,沒有正確的準備機器就無法運作。
誤報問題即便財務數據是經過結構化及驗證過的,對於一台機器來說可能仍然沒有用處,而且人工智慧在分辨哪些數據是有用哪些數據沒有用時存在困難。大量的財務數據意味著可能出現以下的情況:大量的表象模式實際上只是純隨機性結果。這一現象名叫 「過度擬合」(Overfitting),是個公認的問題,斯坦福大學的機器學習在線課程有一堂課講到過度擬合。
過度擬合不僅僅是個人工智慧問題。人類偏向於看到其實並不存在的模式(啟發式),算是人類很難改掉的毛病。但人類至少自己意識到有這個毛病,可以去試圖克服它。而精密電腦的意識水平卻還沒到這一步。程序員將機器設計成怎麼尋找模式,機器就怎麼尋找模式。
人工智慧日趨複雜,過度擬合問題也變得越來越糟。Man Group的定量基金首席數據科學家Anthony Ledford最近告訴記者:
「模型越複雜,解釋訓練數據時的能力就越強,而將來解釋數據的能力就越差。」
許多定量基金現在只是從過去的數據中挖掘模式,然後希望這些模式能延續到未來。而實際上,大部分這些模式都是隨機結果或者相應的條件已不復存在。
我們又一次看到人工智慧與人類智能配對的必要性。機器比任何人類都可以更快速和更有效地處理數據和查找模式,但機器現在仍缺乏審核模式的智能及缺乏理解模式是否可以用於預測未來結果的智能。
人工智慧黑盒當然,人類在審核人工智慧結果時需要理解人工智慧是如何思考的。人類需要對機器用到的流程以及發現的模式有一定程度的了解。
目前,大多數人工智慧對於潛在用戶而言不夠透明。人工智慧演算法通常是一個黑盒子,人工智慧接收數據,吐出結果,底層的機理不透明。
一部分原因是,如果我們希望機器能夠按照他們所需的規模進行運作,這個問題就是不可避免的。人工智慧代碼非常複雜,很少有人能完全理解人工智慧的內部運作。
事實上,一些複雜度低於人工智慧的軟體也存在這些問題。10年前,豐田凱美瑞備受意外加速問題的困擾。太多程序員曾為引擎控制軟體寫過代碼,引擎控制軟體成了「義大利麵條代碼」,即是說一大堆晦澀且往往自相矛盾的代碼,沒有人看得懂,最後出錯造成很大的損失。
支持人類的汽車剎車和加速軟體都可以如此複雜,那想像一下,諸如財務建模等更複雜的活動會有多麼的混亂及多容易出錯。一行代碼中的一個錯誤可能會改變系統的整個功能。軟體不會停止運行,但卻會執行別的任務,而且誰都不知道是這樣,到了有人知道時可能已經太遲了。
該問題由於具足夠金融專業知識的人與程序員之間的分化而變得更加嚴重。財務專家不明白軟體如何運作,而程序員也不明白財務如何運作。
金融遠非唯一存在該問題的部門。《大西洋》報在題為「即將到來的軟體啟示錄」的文章里詳細列舉了幾個大故障例子,這些故障發生的原因都是碼農沒有正確預測軟體所有的潛在用途。由於使用代碼的人不知道代碼的工作原理,故障時間也就更長。
人工智慧只要還是一個黑匣子,其實用性就存在局限。缺乏透明度最終會導致重大及發現不了的故障。而且在缺乏透明度的問題得以解決前,投資者將大筆資金投到他們不信任的項目里是很難的。
未來道路儘管人工智慧面臨所有這些挑戰,但卻仍將進一步在華爾街擴大其影響力。金融公司沒有其他辦法滿足降低成本並改善服務的雙重要求。既要在每小時分析提交給美國證券交易委員會的大量公司財務數據,又要滿足信託照管責任,科技是唯一的解決方案。
那些了解這一事實並採取了具體措施在科技上投資的公司與競爭對手比較的優勢是顯著的,這就是瑞銀和摩根士丹利為什麼成為金融行業首選的原因。


※從英特爾到紫光:美光的產品無法令人滿意,請試試我們這款3D NAND
※工業互聯網用數據從不同層面創新
TAG:至頂網 |