智能法律：從第一家初創到法官判決智能預測

新聞 05-06

機器之心報道

Ross Intelligence：世界首個人工智慧律師

ROSS Intelligence 現位於矽谷，是全球第一家致力於法律服務的人工智慧創業公司。

2014 年底，多倫多大學的幾位學生在參與 IBM 認知計算機科學競賽（IBM Cognitive Computing Competition）的過程中，將 Watson 的 Q&A 技術運用到了有關破產法律研究中。他們基於法律的分類法和本體論，通過使用 Watson 的 Q&A API，讓 Watson 學習了數千頁的法律文件，並基於谷歌的 PageRank 演算法，建立了用於法律搜索的機器學習層 LegalRank。這套系統能自行識別出法律信息的重要程度，例如它能分辨出最高法院的判決要比地區法院排名靠前。

雖然這個系統在比賽中錯失了第一名，但是這幾位學生的競賽項目成功轉化為創業公司 ROSS Intelligence，連續兩年入選彭博人工智慧圖景法律應用板塊，並得到眾多媒體的報道（比如，福布斯，紐約時報，經濟學人、連線、新科學家、衛報，大西洋月刊及眾多頂尖法律期刊等）。

2015 年夏天，ROSS 得到全球最大律師事務所 Dentons 旗下的 NextLaw Labs 的投資，並正式成為了 Dentons 的業務夥伴。之後的一年內，ROSS 不僅成功上線，並且在 Dentons 之外逐漸獲得了更多的客戶，包括大型律所 BakerHostetler 等。不久之前，機器之心對 ROSS Intelligence 的 CTO、聯合創始人 Jimoh Ovbiagele 進行了專訪，他向國內的讀者介紹了 ROSS 的創業歷程、ROSS 所採用的技術以及未來 ROSS Intelligence 的發展方向。

智能法律：從第一家初創到法官判決智能預測

ROSS 的技術

智能法律：從第一家初創到法官判決智能預測

Jimoh 介紹了公司產品所使用的一些技術，比如 NLP 或 Knowledge Representation。

Jimoh Ovbiagele說：我們使用了很多不同的自然語言和機器學習技術。我們使用了深度神經網路、依存解析（dependency parsing）、命名實體識別等（name entity recognition），language model 等。我覺得 language model 超酷的，我們使用了 word embedding , 比如詞嵌入（word2vec），以百萬計的法律案例訓練我們的 word embedding。同時，我們發現了一些有趣的東西，比如，總統減去權利，我們得到副總統；不幸的是，我們用律師減去金錢，得到遵守道德。（笑）

這裡面存在一些問題，其中一個是在使用機器學習解決判刑問題或預測罪犯時，發現有很強的種族偏見。人們批判機器學習存在種族歧視，但現實是我們的社會存在種族歧視。機器學習像鏡子一樣反映出社會的歧視，它如同鏡子反應出社會的看法。這些機器學習系統是從數據中進行學習，但是這些數據來自我們人類，所以最終其實還是是學習我們人類。

Jimoh Ovbiagele解釋到 ROSS 是如何搭建 knowledge base 以及如何做信息提取：這取決於具體的方法。比如使用 word embedding 這樣的無監督學習技術，我們把判例法輸進去，搞清楚單詞的語境然後建立詞的表徵。我們也會進行大量人類互動，讓系統更加完善。我們採用多種自然語言理解方法來決定推薦的文章是否回答了問題。雖然有很多種辦法，但是我們得搞清楚如何給與每個特徵或參數恰當的權重或得分。一種方法是我們使用機器學習來從歷史問題和已知答案的訓練數據組中學習，進行數以千計的迭代，為那些權重測試不同參數，看看哪些可以得出最理想的結果（基於訓練數據集）。

此外我們擁有遍及全球教育 ROSS 如何回答問題的律師。「理解」這一點很重要：我們並非教授 ROSS 法律, 我們是在教授 ROSS 如何閱讀法律。因此，即使律師教授的是具體問題，ROSS 也要從這些問題中發現模式，運用到回答從未見過的問題上。

最後，當用戶使用我們的產品，我們會邀請用戶給予反饋（比如點贊或吐槽），然後根據反饋強化問答或鼓勵我們反思。

總體來說，第一是律師主動地訓練系統，其次用戶在使用中通過反饋訓練系統給出更好的答案，此外就是基於大量的數據使用適當的演算法學習出表徵。

隨機森林演算法預測法官判決，準確度優於人類水平

智能法律：從第一家初創到法官判決智能預測

一項新研究表明，即使在信息比較少的情況下，計算機也能比法律學者更好地預測最高法院的判決。

還有其他一些研究也通過演算法預測法官的判決行為。例如在 2011 項目中，其使用了 1953 年到 2004 年任意八名法官的投票來預測同一個案件下第九名法官的判決，該系統實現了 83% 的準確度。而另一篇 2004 年發表的論文通過使用 1994 年以來一直在法院工作的法官及其判決來預測 2002 年案件的判決結果，該系統實現了 75% 的準確度。

而現在新的研究利用更豐富的數據集預測任意法官在任何時候的判決。研究者們使用的是最高法院資料庫，該資料庫包含的信息甚至可以追溯到 1791 年處理的案件。利用這一大型資料庫，研究者們構建了一個通用型演算法，該演算法可以預測任何法官在任何時間所做的判決。研究者們將每一個判決使用 16 個特徵表達，其包括了法官、時期、問題和原審判法院等信息。同時他們還增加了一些特徵，如口頭辯論是否有旁聽者等情況。

該團隊利用 1816 年到 2015 年的數據建立了一個稱之為隨機森林的統計機器學習模型。該模型通過查看以往的數據以找出案件特徵和判決結果之間的聯繫。模型預測的判決結果包括是否撤銷地方法院的裁決以及每一個法官是如何判決的。然後模型通過查看該年份每一個案例的特徵預測可能的判決結果。最後，該演算法會學習預測的結果，這樣以更新以後判決的策略。

從 1816 年到 2015 年，演算法正確地預測了法院 28000 項決議中的 70.2%，法官 240000 次判決中的 71.9%，該數據是論文作者在 PLOS ONE 中所報告的。該演算法擊敗了最高法院流行的策略「總是推翻」，推翻策略在過去 35 期最高法院的判決中佔了 63%。同樣該隨機森林演算法也要比直接使用過去 10 年的經驗而自動預測「推翻」與「維持原判」這一策略要好。2004 年的研究發現，即使是知識淵博的法律專家，他們在預測案件的準確度也只有 66%。該研究的主要作者，芝加哥伊利諾伊理工大學法學教授 Daniel Katz 說：「每一次我們在預測案件的時候，人類很難做到準確。」

西班牙依維爾基里大學的物理學家 Roger Guimera 和 2011 項目的主要作者都說新演算法「嚴謹而優良」。密歇根大學政治學家 Andrew Martin 作為 2004 年項目研究的作者，他評論新團隊所建立的演算法在兩個世紀以來的數據上運行優秀。他說：「新研究團隊正在創造真正的大數據集並使用最先進的演算法，這對科學來說十分重要。」

走出實驗室，銀行家和律師可能將此演算法投入到實際應用中。投資者也會對可能在裁決中受益的公司進行投資。而上訴者也可以根據是否有勝算而向最高法院提出訴訟。Katz 說：「而那些經常討論這些案件的律師也將受益良多。」

律師還能將不同的變數加入到模型中以獲得最可能上訴成功的路徑，這些變數就包括了哪些地方法院上訴的成功率高或哪些才是合適的原告人。芝加哥肯特學院法學研究聯合作者 Michael Bommarito 在美國獨立企業聯盟（National Federation of Independent Business v. Sebelius）就提出過一個真實的案例，其中美國平價醫療法案已經正式推行：「其中令其真正有趣的是：平價醫療法案是關於自由言論，關於稅收或某種健康權益問題嗎？」而現在，演算法可以幫助原告人哪些問題才是最重要的。

判決預測演算法的未來應該包括口頭辯論的全文文本或專家預測。Katz 說：「我們相信法律專家、大眾和演算法的融合是解決判決預測問題的關鍵。」

智能法律：從第一家初創到法官判決智能預測

論文地址：http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0174698

基於機器學習的發展和先前司法判決預測科學的研究，我們構建了一個可以預測美國最高法院（Supreme Court of the United States）判決行為的通用演算法。為此，我們開發了一個隨時間演化的隨機森林分類器，並且利用其獨特的特徵工程預測了近兩個世紀（1816-2015 年）的 240000 項判決和 28000 項案件結果。我們在決策之前只使用可獲得的數據，並在參數和非參數測試下，模型在判決和案件層面上都優於基線（null/baseline）模型。在近兩個世紀的數據中，我們在案件結果層面實現了 70.2% 的準確度，司法判決層面實現了 71.9% 的準確度。最近，我們利用近一個世紀的數據實現了比樣本優化零模型（in-sample optimized null model）近 5% 的優化。我們的研究與先前預測保持一致，並提升了一般預測的水平。然而，我們的模型是獨特的，因為其可以應用於整個最高法院過去和未來的樣本，而不是單一的時期。因此我們的研究成果代表了定量法律預測科學的重要進步，並展示了一系列潛在的應用。

智能法律：從第一家初創到法官判決智能預測

表 1：預測結果的分布（1816-2015）

智能法律：從第一家初創到法官判決智能預測

圖 1：案件和司法判決準確度（1816-2015）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

TAG:機器之心 |

您可能感興趣

※智能美髮時代到來，數據演算法與人工智慧為感性髮型制定規則
※美歐智能決策演算法安全管理要求及對我啟示
※成立不到三年，這家公司對智能出行有點看法
※智能合約：讓懂法律的會計來當程序員
※阿里巴巴「鹿班」演算法技術負責人星瞳：用可控視覺生成引擎完成智能設計
※谷歌智能預測拼寫是你的真實想法嗎？
※英飛凌攜手美的推出新一代智能門鎖解決方案，安全性能將得到全面提升
※小米小愛智能鬧鐘：不只能叫你起床，還能控制其它智能設備
※專訪 | 阿里巴巴「鹿班」演算法技術負責人星瞳：用可控視覺生成引擎完成智能設計
※智能物聯網解決方案，讓機械臂感知到有人靠近
※聯想智能顯示評論
※智能鎖哪個品牌好？優點智能鎖自學習演算法瞬間解鎖
※科技巨子跨界擁抱智能汽車，第一次遇到了錢也無法解決的問題
※這個最新型的智能戒指，有了它就可以輕鬆控制任何智能設備！
※用AI賦能智能家居，這家公司欲破解行業「偽智能」
※營銷智能化能解決什麼問題？
※從《夢想改造家》看智能家居，說是智能也可能是智障……
※智能馬桶選購方法和技巧有哪些？
※智能時代，態度決定未來
※英國法律委員會正在將智能合約的使用編入英國法律