AI 研習社大講堂已逾 100 期！精彩 NLP 分享視頻回顧

新聞 11-29

機器學習、人工智慧領域的研究人員，以及任何學術研究人員，都關心這兩件事：分享、傳播自己的研究成果讓更多人知道，以及了解自己研究方向的最新進展、結識更多的研究人員。雷鋒網 AI 研習社大講堂就是一個供研究人員們分享自己成果、促進廣泛溝通互動的直播平台。

自 AI 大講堂去年 7 月上線以來，已經有來自清華大學、北京大學、上海交通大學、香港科技大學、 MIT、UC Berkeley、悉尼科技大學等知名國內外高校的嘉賓進行直播分享，甚至還舉辦了線下論文分享會，迄今已完成了 100 期，覆蓋影響讀者過萬人。不僅嘉賓自己的研究成果被直播觀眾以及讀者們了解，也讓科技愛好者們、學生們、其它研究人員們增進了對人工智慧相關思維、知識、應用的認識，為國內人工智慧長期持續發展的氛圍出一份力。

下面我們匯總了大講堂精彩的 NLP 方向分享回顧。

word2vec是通過文本的語序和語境無監督訓練出來能將詞的語義表徵到向量空間中的模型。自從Mikolov et al.在2013年提出之後，在文本分析中有著廣泛的應用。在這次分享中，我將講解word2vec模型的基本原理，它的一些變形，以及在一些數據挖掘任務中的應用。

語音分離的三個方面：語音增強（語音和非語音分離），多說話人分離和語音解混響；

語音分離的四個部分：模型，訓練目標，訓練數據和單通道分離演算法。

生成式對抗網路（GANs）目前已經得到了廣泛研究者的關注並且在很多實際場景中得到應用。但是大多數研究工作仍然集中在例如圖片和語音的連續稠密數據上，而對例如文本這樣的序列離散數據的生成研究得較少。原因是對這類離散數據無法直接求導，導致原版的GAN模型無法工作。我們課題組在2017年AAAI提出SeqGAN框架來成功繞過這個問題，通過將文本生成器建模成一個強化學習策略並用REINFORCE梯度優化來學習這個生成器，SeqGAN達到了文本生成效果的提升。基於SeqGAN，我們課題組進一步研究了對抗過程中的信息泄露設置，發現判別器泄露的信息其實能很好地幫助生成器快速學習並最終達到更好的文本生成效果，這個新框架我們命名為LeakGAN。

LSTM-RNN可以對長時序列信息進行建模，廣泛應用於語音識別聲學模型建模中。此次主要介紹近期LSTM的一些研究進展包括LC-BLSTM，2D-LSTM等。其中LC-BLSTM採用了雙向LSTM結構，並在訓練和解碼時加入了數幀的未來信息來控制延時，解決了普通雙向LSTM無法用於實時語音識別的問題；而2D-LSTM在時間和頻域兩個維度上進行循環，同時保存時間軸與頻域軸的序列信息，Google和微軟都在大規模語音識別任務上驗證了這類2D-LSTM結構的有效性。

唇語識別，即通過運動的嘴唇，識別其說話內容。通過LSTM模型將CNN抽取出來的圖片特徵進行時序建模，最後引入Seq2Seq的翻譯模型將發音轉換成漢字。此次分享，會先簡單介紹現有的英文唇語識別的一些工作（《Lip Reading Sentences in the Wild》和《LipNet： sentence level lipreading》），隨後對中文唇語識別展開詳細討論。

深度好奇提出了用於垂直領域文檔理解的OONP框架，它使用離散的對象本體圖結構作為中間狀態，該狀態被OONP創建、更新直至最終輸出。這個解析過程被OONP轉化成為按照文本閱讀順序的離散動作的決策序列，模仿了人理解文本的認知程。OONP框架提供了神經符號主義的一個實例：在OONP框架內，連續信號、表示、操作和離散信號、表示、操作緊密結合，形成信息閉環。這使得OONP可以靈活地將各種先驗知識用不同形式加入到行間記憶和策略網路中。為了優化OONP，深度好奇利用監督學習和強化學習以及二者的各種混合態，以適應不同強度和形式的監督信號以訓練參數。

現實生活中干擾雜訊的存在嚴重影響到助聽器、人工耳蝸等聽力設備佩戴者的語音可懂度。同時在智能語音交互設備中，這些干擾雜訊的存在也嚴重影響了語音識別的正確率，隨著智能音箱等設備的大熱，語音前端信號處理越來越被重視起來。本次分享主要對單(多)通道的傳統語音增強演算法做個簡單的匯總，然後重點講解一下目前學術上比較前沿的基於深度學習的語音增強與分離演算法。

隨著強化學習在機器人和遊戲AI等領域的成功，該方法也引起了越來越多的關注。本次分享將介紹我們利用強化學習技術，更好地解決自然語言處理中的兩個經典任務：關係抽取和文本分類。在關係抽取任務中，我們嘗試利用強化學習，解決遠程監督方法自動生成的訓練數據中的噪音問題。在文本分類任務中，我們利用強化學習得到更好的句子的結構化表示，並利用該表示得到了更好的文本分類效果。這兩個工作均發表於AAAI 2018。

基於編碼器-解碼器結構的序列生成模型被廣泛應用文本任務，例如神經機器翻譯，摘要生成，對話系統等等。然而，現有模型在生成序列的時候都是只生成一次，而沒有反覆「推敲」的過程。而推敲在我們進行翻譯、寫文章的時候是一個很普遍的做法。因此我們將「推敲」引入序列生成模型中，提出了推敲網路，來改進序列生成質量。本次公開課中，夏應策同學將主要分享推敲網路演算法及其應用。

近年來，聊天機器人（chatbot）作為AI技術的殺手級應用，發展得如火如荼，各種智能硬體層出不窮。而虛擬生命作為chatbot的下一代範式，更面臨著許多技術挑戰。本次演講將詳細闡述即將公開在AAAI』18的兩篇論文。兩篇論文分別研究了命名實體識別（NER）和推薦系統。前者是自然語言理解（NLU）的基礎功能，而後者可以在產品上體現「生命感」和認知功能。由於NLU技術目前在人工智慧領域也僅僅處於起步階段，因此，在NER方面的研究，體現了如何利用眾包技術進一步提升數據的質量和演算法的性能，從而增強虛擬生命的感知功能。而推薦系統，則以場景化出發，可以通過對多源異構的知識圖譜進行融合，實現準確的推薦，讓用戶真實感受到「情感陪伴和關懷」，從而使得虛擬生命產品，從傳統聊天機器人的「被動交互」，進化到根據用戶興趣和喜好進行「主動交互」。

近幾年，深度神經網路在自然語言學習任務上取得眾多突破，但是仍然依賴於大規模靜態標註數據。與此相反，人類學習語言的時候：

1)不需要大規模監督信號；

2)可通過與環境的交互理解語言。

基於讓人工智慧像人類一樣學習語言的目標，本次分享將介紹無監督學習和情景化學習(language grounding)的一些最新進展，其中包括一篇ICLR Oral論文(錄取率2%)的解讀。

在如今大數據背景下，人們輕而易舉的可以獲得海量的文本數據，如何有效的分析這些文本數據，同時提取有效的特徵用於後續的文本分類，文本檢索以及推薦系統等應用中，成為一個重要的研究課題。雖然一些基於概率生成網路的主題模型被提出，比如 LDA ，深度 LDA 等，但是它們在測試階段仍然需要耗費大量的時間去推理參數的後驗，使得這些模型在實際應用的時效性上大打折扣。因此，本次公開課，張昊博士將結合他們團隊 ICLR 2018 文章，WHAI: Weibull Hybrid Autoencoding Inference for Deep Topic Modeling，分享他在解決這個問題過程中的建模，演算法實現以及實踐經驗。

話生成是近年自然語言處理領域的熱門方向之一，如何控制回復的屬性（如情緒、風格等）以提升回復質量和交互體驗成為學術界和工業界共同關注的話題。在本次分享中，講者將分享對話生成可控性的最新工作。

現如今，諸如小冰這類閑聊機器人逐漸進入了大眾的視野，甚至成為了一部分人打發閑暇時光的伴侶。然而，現在的閑聊機器人在對話的互動性、一致性以及邏輯性上都還存在著一些亟待解決的缺陷。本次與大家分享的一篇收錄於ACL2018的論文，將嘗試著利用提問來解決閑聊機器人互動性不足的問題。

近年來人工智慧與文學藝術的結合日趨緊密，AI自動繪畫、自動作曲等方向都成為研究熱點。詩歌自動生成是一項有趣且具有挑戰性的任務。在本次公開課中，講者將介紹清華自然語言處理與社會人文計算實驗室的自動作詩系統，「九歌」，及其相關的技術方法和論文。

word embedding是很常見的input feature，能夠很大程度地提升模型的性能。另一方面，關於output對模型性能的影響，關注度並不是很高。在本次分享中，將介紹一下關於output embedding對於semantic parsing的影響。

義原（Sememe）在語言學中是指最小的不可再分的語義單位，而知網（HowNet）則是最著名的義原知識庫。近些年包括知網在內的語言知識庫在深度學習模型中的重要性越來越顯著，但是這些人工構建的語言知識庫往往面臨新詞不斷出現的挑戰。知網也不例外，而且其只為中、英文詞標註了義原，這限制了它在其他語言的NLP任務中的應用。因此，我們希望採用機器學習的方法為中文新詞自動推薦義原，並進一步為其他語言的詞語推薦義原。

大數據開啟了詞典編纂的新模式，語義計算使得自動編輯成為可能。本次分享中，講者分享如何通過word2vec等工具來計算字義相似度從而識別異體字。

近些年來，端到端（End-to-End）語音識別得到了廣泛的關注和研究，成為語音識別領域新研究熱點。本次公開課中，講者將分享端到端語音識別框架提出的動機和幾種主流方法的探討與對比。

近些年來，端到端（End-to-End）語音合成得到了廣泛的關注和研究，成為語音合成領域的新研究熱點。本次公開課中，講者將分享端到端語音合成框架提出的動機，並對幾種主流方法介紹和對比。

近年來，對抗學習被廣泛的應用在了計算機視覺的各個研究領域中，成為一個非常流行的研究熱點。在語音相關的研究領域中，對抗學習也逐漸滲透到各個研究分支里，包括語音降噪與分離、語音合成、語音識別和說話人確認等任務。在本次報告中，我主要介紹我們將對抗學習應用在魯棒語音識別任務中的工作。同時，也會簡單介紹對抗樣本在增強模型魯棒性方面的工作。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※iPhone XS 陷「充電門」：待機狀態拒絕充電
※高通面向智能攝像頭的四大解決方案＋終端側神經網路產品

TAG:雷鋒網 |