頂會論文解析

最新 07-30

閱讀大概需要5分鐘

跟隨小博主，每天進步一丟丟

作者 bamtercelboo

原文地址

https://bamtercelboo.github.io/2018/07/19/Learning-to-Predict-Charges-for-Criminal-Cases-with-Legal-Basis/

導讀

2017年EMNLP(Conference on Empirical Methods in Natural Language)收錄了論文《Learning to Predict Charges for Criminal Cases with Legal Basis》，作者是北京大學—羅炳峰。最近看了這篇論文，對其做一個簡單的概述。

背景知識

近些年來，Legal Jugement Prediction 任務越來越引起大家的關注，這個任務的目的是通過給定的事實描述，預測出罪名，法條以及刑期等相關信息，charge prediction 任務就是這樣的一個任務，這對一些法律助手是很有幫助的，對法官判決也有很大的幫助，不僅如此，對那些法律知識知之甚少的人也會有一定的積極作用。

目前，這類任務的主流做法是基於文本分類的框架，像流行的SVM，CNN，LSTM等這些深度學習框架，然而，作者認為，僅僅通過給定的事實描述來做，不能夠很好的解決問題，他認為，法條信息在這個任務上有很重要的作用，所以，作者通過加入法條特徵，使用attention機制，提出了這個任務新的方法，通過他的實驗結果也確實表明法條起著至關重要的作用。

數據處理

數據來源於中國裁判文書網，收集了50000個文本用作訓練，5000個文本用於開發，5000個文本用於測試，50000個訓練文本中，把罪名的頻度低於80的看做消極數據，不作處理，僅僅處理頻度高於80的數據。

對於法條部分，考慮刑事法律，結果數據集中包含50個不同的罪名，321條不同的相關法條，每個事實描述平均383個詞，根據下圖，高亮的部分，能夠很容易通過正則表達式抽取相關特徵。

由於目前很難匹配多個罪名，所以這篇論文僅僅考慮了一個罪名的情況，並沒有做多個罪名的情況。

論文模型

模型整體架構

論文的整體的模型圖如下圖Figure 1:

過程：

事實描述（fact）通過document encoder生成fact向量表示d_f。

fact也通過Article Extractor抽取其中的匹配度較高的k個法條。

抽取出來的k個法條通過document encoder生成向量表示s。然後通過article Aggregator生成法條的最終向量表示d_a。

把 d_f 和 d_a concat在一起，做分類。

Document Encoder

一個句子由多個片語成，一個文本由多個句子組成，可以先過句子級別的encoder，再過文本級別的encoder。如下圖可以得到文本的embedding。論文中對這兩個encoder都採用了Bi-GRU作為編碼端，為了能夠獲取到更多的信息，論文還採用了attention機制。

Attention Sequence Encoder

為了能夠獲取更多的有用信息，採用了Hierarchical Attention（16年的一篇文本分類的論文），模型結構圖如下圖

計算的公式是：

這樣就能夠明白Figure 1 中的 U_fw 和 U_fs是這裡Attention機制的u。

Law Articles

用法條特徵來更準確的預測是這篇論文的重點。如何準確的抽取出法條特徵也是一個難點，論文中採用了兩個步驟來獲取特徵向量。

首先採用一個快速且容易的SVM分類器，做多個二分類，過濾掉大部分不匹配的法條，得到k的最為匹配的相關法條，分類器還加入了TF-IDF特徵、chi-square，更為準確的獲取相關法條。

抽取出k個相關法條之後，再通過Article Encoder(和Document Encoder一樣)獲取法條的向量表示，這裡不同的是attention中的u不在是隨機的，而是通過fact embedding動態產生的，通過下面的公式。

最後在通過Attentive Sequence Encoder從k個法條中獲取到支持預測的法條，這裡的u也是通過fact embedding動態產生的。

Output

最終的把fact embedding(d_f) 和 article embedding(d_a) concat 在一起，做最後的預測，這裡還設置了一個threshold。

Supervised Article Attention

在訓練的過程中，利用金標的法條監督法條attention的分布，就是想要法條attention的分布於目標法條的分布相似， loss的計算公式如下：

實驗部分

實驗的參數設置沒有什麼特別的，實驗部分，論文做了很多的對比實驗，從結果來看（下圖）法條特徵對預測確實起著很大的作用。

總結

法條特徵對這個任務確實起著很重要的作用，雖然論文僅僅做了單一罪名的預測，沒有嘗試多罪名預測中法條特徵的影響，但是論文的思路已經給我們提供了新的方向。

IELTS a bit

inadequateadj. 不充分的，不適當的

essencen. 本質，實質；精華；香精

transcendvt. 勝過，超越

converselyadv. 相反地

alleviatevt. 減輕，緩和

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 深度學習自然語言處理 的精彩文章:

TAG:深度學習自然語言處理 |