當前位置:
首頁 > 科技 > 西澳大學:用於改進標題評估的基於學習的複合測量方法

西澳大學:用於改進標題評估的基於學習的複合測量方法

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術解讀的第139篇論文

ACL 2018 Student Research Workshop

用於改進標題評估的基於學習的複合測量方法

Learning-based Composite Metrics for Improved Caption Evaluation

西澳大學

The University of Western Australia

本文是西澳大學發表於 ACL 2018 的工作,在這項工作中,我們為圖像標題質量評估任務提出一個基於學習的框架,將一組辭彙和語義測量得分作為特徵,以捕獲不同語言級別標題的充分性和流暢性。實驗結果表明,複合測量利用了獨立測量的強度,從而改進了其相關性和準確性。

引言

自動圖像標題生成要求從視覺方面理解圖像,進而生成類人的描述。生成標題質量的評價對圖像標題系統的開發和細粒度分析是至關重要的。自動評估指標旨在為標題質量提供有效、合算的和客觀的評估。因為這些自動測量方法需要作為手工評估的替代方法,因此要重點考慮人們在評估標題時所考慮的各個方面,要求自動測量可以模擬人的判斷過程。

圖像標題的評價可以分為兩個主要方面:充分性和流暢性。充分性是指標題如何很好地反映源圖像,流暢性是指標題如何很好地符合人類語言的規範和習慣。在手動評估的情況下,充分性和流暢性都傾向於塑造人類對標題整體質量的一種感知。大多數自動評估測量傾向於基於「候選描述越接近專業人員標題,其質量就越好」的思想來捕捉質量標準。這種情況下的輸出反映的是相似性分數(越高越好)。

大多數用於圖像標題的常用測量,如BLEU和METEOR,都基於辭彙相似性。辭彙測量(基於n-gram)指的是獎勵候選標題和參考標題之間的n-gram重疊。因此,通過計數n-gram匹配來測量充分性,並通過隱式使用參考n-gram作為語言模型來評估流暢性。然而,大量的n-gram匹配並不能總是表示高的標題質量,少量的n-gram匹配也不能總是反映低的標題質量。最近提出的語義測量SPICE通過使用場景圖來測量候選標題和參考標題的語義相似度,克服了辭彙測量的不足。然而,SPICE的主要缺點是忽略了輸出標題的流暢性。

綜合不同測量的評價分數是改進現有圖像標題評價方法的一種直觀、合理的方法。通過這種方法,每個量度標準都扮演著評判人的角色,評估標題在辭彙、語法或語義方面的準確性。在本研究中,我們使用一組通常用於標題測量的方法,並通過基於學習的框架將它們結合起來。在這個工作中:

1. 我們評估了所選測量集合的各種組合,並且表明所提出的複合測量與人類判斷具有更好的相關性。

2. 我們參照真正的標題,從標題對之間的不同角度分析複合測量的精度。

模型方法

本文使用一組現有度量方法賦予的分數,作為多層前饋神經網路的輸入。我們基於一個簡單的問題的定義訓練標準:標題是機器還是人類生成的?經過我們訓練的分類器在優質和劣質標題之間設置邊界,從而將它們分類為人工或機器產生。此外,我們使用類概率來獲得連續的輸出分數,這可以被認為是候選標題是人工生成的一些「可信性度量」。因此我們的學習問題可作為分類任務來處理,允許我們分別使用人工生成的標題和機器生成的標題作為正向和負向訓練示例來創建二分訓練數據。

我們在下圖中提出的框架首先使用候選「C」和參考語句「S」提取一組數字特徵。

然後提取所提取的特徵向量作為輸入到我們的多層神經網路。特徵向量的每個實體分別對應於由四個度量之一生成的分數:METEOR、CIDEr、WMD和SPICE。之所以選擇這些方法,是因為相比於其他常用於標題的方法,它們顯示出與人工評判相對較好的相關性。我們的複合度量被命名為EvalMS,EvalCS, EvalMCS, EvalWCS, EvalMWS和EvalMWCS。每個名稱中的下標字母對應於每個度量的第一個字母。例如,EvalMS對應於METEOR和SPICE的組合。下圖顯示了單獨和複合度量所捕獲的語言方面。

SPICE是以句子意義為基礎的,從而評價語義。CIDEr包括語法和辭彙方面,而Meteor和WMD評估辭彙和語義組件。基於學習的度量標準大多落在由所有三個主要語言學方面的重疊區域中,從而可以形成更好的評價。

我們訓練我們的度量,以最大限度地提高訓練數據集上的分類精度。由於我們主要是為了最大化其與人工評判的相關性,因此使用基於Kendalls τ的驗證集執行早期停止。

實驗分析

為了訓練我們的複合度量,我們從Flicker30k數據集和三個圖像標題模型show and tell、show, attend and tell(soft-attention)和adaptive attention中獲取數據。

為了獲得每個訓練示例的參考標題,我們再次使用Flicker30k的人工書寫描述。然而,對於每個正向訓練示例(人為生成的標題),我們使用與每個圖像相關聯的5個人寫標題,選擇其中之一作為人工候選標題(正向示例),其餘4個作為參考。在下圖中,我們對可能的配對方案進行進一步說明。

自動評估度量最理想的特徵是它與人類得分具有很強的相關性。與人類判斷的更強的相關性,表明度量捕獲了人類用來評估候選標題時所考慮的信息。我們在下表中報告了所提出的複合度量和其他常用標題評估度量的Kendalls τ相關係數。結果顯示在句子級相關性方面,複合度量優於獨立度量。

我們遵循引入的框架,參照基本真值標題,分析度量在標題對之間進行區分的能力。如果將一個較高的分數分配給人類所喜歡的標題,則度量被認為是準確的。我們在下表中遵循最初的方法,每個候選者使用5個參考標題來評估度量的準確性。結果顯示,平均而言,與單個度量相比,複合度量具有更好的精度。在這四個類別中,HC是最難的,其中所有度量都顯示出最差的性能。區分兩個高質量的(人工生成的)正確標題是非常具有挑戰性的,因為它涉及對兩個候選的細粒度分析。

總結

本文提出了一種基於學習的方法,結合各種度量來改進標題評價。實驗結果表明,通過基於學習的框架,可以成功地將沿著不同語言維度操作的度量進行組合,並且它們在相關性和準確性方面優於現有的用於標題評價的度量方法,EvalMS和EvalMCS表現出最佳的總體性能。實驗表明本文所提出的的方法是有前途的,並且在標題評價中具有很大的潛力。與流暢性相比,標題的大多數指標更多地關注充分性,未來工作我們將重點考慮充分性研究,並設計能夠具體評估標題流暢性的度量/特徵組合。

論文下載鏈接:

http://aclweb.org/anthology/P18-3003


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

ACL 2018:斯洛伐克理工大學:用戶評論意見綜述

TAG:讀芯術 |