當前位置:
首頁 > 最新 > 人工智慧如何驅動未來教育發展?

人工智慧如何驅動未來教育發展?

A

BOUT

1月13日下午,在滬江北京研發中心滬江智能學習實驗室和CCtalk在京舉辦的「智能引擎,驅動教育」技術沙龍中,達觀數據創始人&CEO陳運文作為受邀嘉賓,在大會上進行了《文本智能處理在教育行業的應用》的演講,與來自雲知聲等企業嘉賓共話智能驅動下的教育未來發展,上百位在線教育行業技術大咖共議智能技術在教育行業的應用。

我們日常工作中不管是做教育還是接受完教育後踏上工作崗位,都會面臨各種各樣的文檔資料和文本數據。

大家每天都在看的各種媒體內容,公司里大量的公文和辦公資料,如果涉及到和客戶打交道的會有客戶評論意見,中文、英文等各種不同跨語言的資料。

一些垂直應用行業,比如法律行業從業者,會涉及法律文書,如果是人事會涉及到人事簡歷;證券、金融行業會涉及到很多財報和公告。所有這些文檔資料,大部分今天還要靠人工來閱讀理解分析。

如果算機系像人一樣閱讀文字內容理解文字含並把很多重複枯燥的工作自很多人力就可以解放出來做更有意的事情這就是文本智能處理的目標

文本挖掘已有很多成功應用,比如搜索引擎就是一個典型的自然語言處理(或叫文本挖掘)非常成功應用案例,並且其商業化也非常成熟。個性化推薦這幾年風起雲湧地發展,但目前文本挖掘技術本身還有很多難題需要攻克,中文方面其實還有很多困難。

NO.1

Datagrand

達觀數據

難點一:字詞關係的處理

字詞關係其實是語言的基本構成元素,但讓計算機來閱讀文字時就發現,要理清楚字詞之間的關聯關係很難。

計算機處理這些詞會遇到很多嚴峻的問題。就中文來講,中華人民共和國是大粒度的詞,講的是一個國家的概念,很多時候可以用單字「中」表達這個意思,比如中美關係、中俄建交,這個裡面的單字中表達的就是中華人民共和國的意思。這個時候,粒度的大小表達的意思相同。

但另外一些情況,單字「中」有另外的含義,河南話的「中」是好的意思,什麼時候這個詞應該用大粒度表示,什麼時候應該用小粒度表示是自然語言技術的處理難題。

還有局部轉移,比如巧克力囊腫是很常見的疾病的名字,和巧克力沒有關係,如果找這個病把巧克力找出來就不行。

以及我們常說的同義詞和近義詞,簡單的方法是配一個同義詞辭典,但是很多場景下同樣意思的詞有微妙的差異,比如父親和爹,應用場景不同,如果簡單劃等號很容易出問題。比如跑步鞋和球鞋意思接近,但當我一定要找跑步鞋時,你給我球鞋是不對的。

還有很多中文中比較混亂的情況,例如:「意思」、「方便等等」都是中文裡非常混亂的辭彙,它在不同應用場景下意思很不一樣。

處理大量文本尤其長文本的時候最重要的是指代歸屬問題比如合同里會說該條款表示的是××這個指代關係需要到上文里找跨段落理解也非常復需要做大量的演算法研究

NO.2

Datagrand

達觀數據

難點二:歧義語義的理解

語義的歧義層出不窮,比如:「咬死獵人的狗」, 「五個公司的工程師」,這是一個典型的數量詞和修飾對象存在歧義問題,我們需要了解到底是五個工程師還是五個公司。如果不給你上下文,兩種語義理解都是對的。

還有一種歧義切分的問題,「乒乓球拍賣了」,一種斷法叫做乒乓球/拍賣了,還有一個是乒乓球拍/賣了,兩種斷字方法都有一定的合理性,一定要結合上下文理解。

最後一個例子是指代歧義的例子,比如:「小張欺負了小王,老師喊了他家長」,想讓計算機理解語義內容面臨的歧義問題非常困難,我們也經常發現一個系統做文字的理解時經常發現答非所問,其實就是歧義在其中有很多障礙。

NO.3

Datagrand

達觀數據

難點三:多樣化句式結構解析

同一個意思我們可以用不同的方式表達,這給計算機來做語義理解帶來了很大障礙。常見的做法很多時候把句字的主語、謂語、賓語等核心語法元素識別出來,找到正常應該對應的位置才能更好地理解它的意思。

比如「你上班了嗎?」這是中文當中常見的寒喧語言,這句話里的主謂賓位置可以任意調換,但意思不變。山東人特別愛上倒裝句,喜歡把主語放在最後說。這句話便成了「上班了你?」

做語法理解的時候便要把「你」識別出來,讓它再回到句子最前面才是正常的表達。做好這些複雜的語義結構分析才能把這些解決好。

NO.4

Datagrand

達觀數據

文本智能處理與人工智慧

我們做智能處理的時候常用的技術是怎樣的?給大家分享一些計算機學界處理文本多年的進化過程。

1956年達特茅斯會議以後,人工智慧被正式提出來,當年科學家提出了兩個AI目標,第一,在國際象棋能夠戰勝人類,第二機器翻譯上能夠超越人類,這兩個目標達到了,1956年的科學家便認為AI就已經實現了。

1956年達特茅斯會議參與者首先提出了AI概念

今天來看,國際象棋上早就已經超過人類了,甚至圍棋也已經超過人類,但是機器翻譯領域,和翻譯人士相比還有不小差距。所以語言的分析挖掘確實是一件很難的事情。

Hinton教授提出了深度學習的概念,最早的時候,五六十年代能想到的是詞典加符號規則的方法,七八十年代有很多技術專家研究不同語言的語言規則和語法模型,在九十年代以後,統計學習的方法衍生出來,直到今天有大量技是基於統計模型來實現2010年以後,深度學習和知識圖譜這些新的技術湧現出來了。

總體來說在學術界做文本智能處理技術分成兩大路線,一個是結構主義,二是功能主義,從兩個角度進行文本智能處理就是從辭彙、篇章做各種各樣的分析挖掘。

NO.5

Datagrand

達觀數據

文本挖掘基礎應用的類型劃分

做文本的智能處理,如果把它從基礎功能抽象出來看,大概分成四類。

1

第一類:抽取

第一類是抽取。如果把文字處理看作一個信號處理問題,輸入一串信號,它由一堆字詞構成,如ABCDEF,我們現在要做的事情就是從裡面抽取出關鍵信息。比如常見的標籤、提關鍵核心內容等都是抽取的一部分。個文本中的關信息在不同景下是不同的但抽取程可以把它抽象出來成一個通用的演算法模型

2

第二類:劃分

第二叫做劃分。同樣輸入一串信號,是現在有一個跟不同應用場景相關的預置好的若干類別,在新聞行業中有自己的分類體系,任何一篇文章過來可以自動分到不同的類別里。

如果做情感,人類情感有幾十種甚至上百種,先定義好人類情感類型,任何一個文本進來都可以看到它屬於哪一種情感類型,這些都是分類應用。

3

第三類:轉換

第三類叫做轉換,輸入一串XXX信號,轉換成另外一串信號。

如上圖就是轉換的例子,輸的是一串信號,通過編碼、解碼、轉化可以映射成另外一種語言或者表達方法。比如機器翻譯,還有摘要,縮短了文本內容,但意思不變。

4

第四類:合成

合成是給出幾個關鍵信息,把它合成一個文章,比如機器寫作、機器潤色等。

以上這些就是文本挖掘的基礎應用類型,抽取、劃分、轉換、合成。

NO.7

Datagrand

達觀數據

文本智能處理在教育行業的應用

文本智能處理在教育行業的具體應用場景有哪些?

1

場景一:自動閱卷

自動閱卷是一個分類過程。比如老師閱卷完了之後打的ABCD等級就是一個類別,機器現在做的就是任何一段文本需要映射到一個對應類別里。

文本分類原理可這樣理解:之前有大量老師給同學們的作業和做題的結果打上各種各樣的分數,這個分數就是機器的訓練樣本,我們基於訓練樣本反過來構造一個語言模型,去了解文章中到底有哪些特徵可以映射到對應的分類里去,建立相應分類模型。建立好以後,便能夠幫助我們來完成文章的自動閱卷的過程。

2

場景二:評論反饋觀點提取

教育行業中的用戶評論、評論的觀點提取也是非常重要的一個場景。很多企業里稱它為VOC系統,教育行業需要從學員的反饋信息中做各種各樣的核心內容抽取,以及評論觀點的歸一,還有大量統計分析。

3

場景三:作文糾錯

在我們日常工作當中只要涉及到文本的寫作,不管是不是作文,其實都需要糾錯。比如一些上市公司發布的公告中經常存在錯誤,大家撰寫的合同中也可存在錯誤。

糾錯方面計算機今天已經可以幫大家做很多工作,最簡單的糾錯就是在word里拼很多單詞,如果錯了它就給你標註一個紅線。但更多景中需要融入個行里的邏輯業規則、經驗等,提供更高級別糾錯這也是達觀數據給客戶提供的服務之一

4

場景四:搜索引擎

搜索是非常典型的基於文字衍生出來的應用,當文檔資料數量多的時候,搜索就變成了剛需。對於一個企業來說,不同部門、不同業務場景都可以積累下來很多文檔資料,這些文檔資料有的存在郵件里,有的存在ERP等系統里,你需要找到核心內容的時候就需要搜索系統。

簡單用關鍵詞匹配容易丟失很多結果,所以我們要做大量的語義方面的理解,需要大量的文本挖掘功能。傳統的搜索比如資料庫搜索,需要搜索的文字數量越多,等的時間就越久。今天用倒排搜索引擎,文本數量增加的時候等待時間通常不變,幾乎感知不到等待過程。

舉個例子,比如搜「英語四級課程」,同樣一個意思有很多種表達方法,我們需要把它都找出來,就要做很多工作了,這就是語義延展。

5

場景五:建立學員的個人畫像

教育行業是一個充分講究個性化的行業,做個性化的一個基礎技術就是做語義理解。

個人畫像首先要對學員所學習的課程做一個語義理解分析,打上個性化標籤再根據些學和內容之的交互行為給生成各種各的用畫像基於個可生很多個性化推薦功能比如可以進行各種的內容的推薦,既可以面向大學畢業生,又可以面向金融從業者,又可以面向小學生甚至科研從業者。

6

場景六:知識圖譜

知識圖譜是一個行業里專家經驗的沉澱,任何領域知識都像一個網狀結構,每個知識點在這個知識網路里和其他知識點構成了一個關聯關係。

在做教育如果能建立一個知識圖譜,就可以看到在掌握的知點在整個域的哪個位置接下來需要往哪個方向這些是對每位教育行業參與者很有價值的應用。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 達觀數據 的精彩文章:

集成學習演算法淺析

TAG:達觀數據 |