當前位置:
首頁 > 新聞 > 達觀數據創始人陳運文:處理操作機械性、重複性文字,計算機將超人類

達觀數據創始人陳運文:處理操作機械性、重複性文字,計算機將超人類

【獵雲網(微信號:ilieyun)北京】8月30日報道

8月30日,以「智慧+新服務」為主題的獵雲網2018年度企業服務產業創新峰會在上海凱賓斯基大酒店隆重舉行。峰會上,達觀數據創始人兼CEO陳運文做了主題為《文本智能處理的企業應用實踐》的演講。在陳運文認為,對於機械性、重複性文字資料的處理操作,計算機的能力很快會超過人類。

陳運文表示,計算機可以像人一樣運用文字,找錯別字、核對財報、行政審批等做文字自動化處理、自動化閱讀理解。今天計算機已經可以把「劃分一句話的主語、謂語、賓語」做得非常好,基本上達到小學語文老師的水平;十年以後,計算機可以代表人做大量的基礎性文字處理工作。

在陳運文看來,那些特別枯燥、重複的文檔處理工作就應該交給機器做,而不是每天耗費人們大量時間,人類應該做更有創造性的文字處理工作,放飛思路,去聯想、創造。

文本智能化處理,可以大幅度提高行業效率,普通人一秒鐘閱讀速度差不多是20至30個漢字,普通計算機能夠處理一萬字。要實現文本自動化處理,首先要教會計算機。

在學習過程中,計算機和人相比有兩個突出特點,一是訓練過程中需要運用大量樣本數據;二是需要教上十幾萬遍、甚至幾十萬遍才能讓其學會;好處是,一旦模型訓練好,計算機可以7×24不休不眠的工作。

獵雲網2018年度企業服務產業創新峰會,由獵雲網主辦,銳視角、獵雲資本、獵雲財經、AI星球、創頭條協辦。政府領導、投資機構、創業者等嘉賓圍繞企業服務領域,大數據、人工智慧、知識產權、共享辦公、法律稅務等垂直賽道的多個議題展開探討,來自全國各地的上千名業內人士齊聚一堂,共同尋找創業新商機,把脈企業服務未來新方向。


以下是嘉賓演講實錄,獵雲網(微信:ilieyun)整理刪改:

非常榮幸今天有機會受到獵雲網的邀請給大家分享我們達觀數據在文本智能處理領域的應用實踐。

首先我做個自我介紹,我自己是達觀數據的創始人兼CEO,我一直做技術,最早在復旦大學計算機系讀博士,在百度、盛大公司一直做技術研發的相關工作,非常有緣我能夠作為技術專家從事所有和文字自動化處理、自動化閱讀理解的相關工作。

其實挺有意思的,因為我小的時候偏科得很厲害,數理化經常都是拿滿分,中考、高考都是數學滿分,但是語文不好,我當時覺得寫一篇文章對我來說是挺折磨人的事情,我特別羨慕語文好的同學,下筆如有神、洋洋洒洒,如果在座有記者朋友,我特別羨慕你們,我覺得寫文字下筆如有神。

所以我當時琢磨,能不能讓計算機像人一樣運用文字,並能寫作?這件事對我來說是非常有價值的。我創辦達觀數據以後,坦率地說和文字打交道的工作越來越多,我申報的項目要寫項目標書,很多的標書寫作是有規律的,寫多以後就發現有相應的格式、規範和套路。能不能讓計算機閱讀理解,代替人完成一部分的文字寫作、審核?我們覺得這件事非常有意義,所以這也是我們達觀數據做的工作,文字自動化處理。

我們公司現在總部在浦東張江,在全國各地,北京、深圳、成都等地方都有布局。我們是中國國家級的高新技術企業,也是上海浦東的一張名片,我們做的工作就是讓計算機段文寫字。

我相信各位生活中一定有這樣的體會,我們每天有很多的時間浪費在和大量的文字打交道的工作上。比如說找錯別字;比如說媒體朋友寫文章找錯別字非常繁瑣,而且很難做到沒有錯誤;財會的朋友有大量的財務報表、財務報告,各種債券,這些不能出錯。我們有大量的核對工作都是人來做,這些工作其實非常繁瑣,費時費力。政府裡面要提高行政審批的效率,但是政府的公務人員很辛苦,每天有大量的文檔要看。能不能讓計算機幫助人、政府員工加快行政審批的速度?這些都是和文字打交道的工作。

我們今天看到用人工智慧和大數據技術,可以在一定程度上代替或者輔助工作。用這張圖(演講PPT)看一看,其實計算機的處理文字過程和人處理文字的過程非常類似。左邊是人腦,人怎麼工作?人做日常的處理工作,手把手教新員工,做三遍、五遍、十遍,人可以總結出裡面的規律,新的任務來了以後,通過以前的三五遍的經驗就可以開始處理工作。計算機完全類似,教計算機做這些工作,計算機從這些數據中,通過演算法訓練總結模型,當新的任務來的時候就可以用模型開始工作,過程非常類似。

但是計算機和人相比有兩個特點,計算機的訓練過程中運用數據量比人大得多,人是特別聰明的,可以舉一反三,比如說一個事情教人三遍,人就會了,教十幾遍,大家覺得你很笨。但是教計算機就很累,很難教三五遍後它就學會,我們通常要十幾萬遍、幾十萬遍地教,它需要的訓練樣本數量要多得多,所以比較緩慢。所以我們經常說為什麼人工智慧要和大數據結合在一起,就是計算機需要海量的數據訓練才能達到接近人的水平的程度。

計算機好的地方是什麼?一旦模型訓練好以後,可以7×24不休不眠的工作,可以保持得非常好。人的大腦會疲勞,科學家做過實驗,人重複做一件事40分鐘以上,差不多一節課的時間以上,人的效率會迅速下降,準確率會下降,但是計算機不會,計算機可工作7×24小時。而且軟體系統的複製成本非常低,接近於0。

我們培養人類的專家需要很多時間和精力、金錢投入,但是計算機完成一個訓練模型以後,可以非常輕鬆地變成兩個系統、十個系統、一百個系統、一萬個系統,相當於你有一萬個員工,同樣水平的不休不眠地工作,這帶來的效率提升非常大。

今天的計算機系統在做文字處理的時候已經可以把一些文本閱讀理解分析做得不錯,比如說法律法規、招股說明書、檔案問答等等常見的文字載體,讓計算機自動地完成這些工作。這些工作到今天為止在大部分企業里都仍然靠大量人做,比如說提煉觀點、抽取信息、審核內容、找錯誤等等,這些都是人在做的。今天讓計算機代替人來完成其中一部分非常繁瑣的工作的日常處理。

我們現在服務的客戶有很多,像金融、法律、媒體、互聯網等等,這些都是文字資料非常集中的行業。計算機做的過程其實並不神秘,這個過程和人從小到大學語文的過程非常類似。

計算機學語文的時候也是分三個層次,字詞級,小學一年級的時候語文老師教我們認漢字,三千個常用漢字+很多很多的詞,認識詞以後會造句,然後是段落、句子,然後讓計算機寫文章,一篇文章由二十句話構成。同樣,我們計算機做文字理解的時候也是分字詞、段落、文章來做。

我們這裡有個例子,讓計算機自動化地進行文字閱讀理解,用我們達觀數據的一個小彈幕系統演示下。

複製文本到計算機,計算機首先分詞,然後自動識別出每個文字中的詞性、詞性分布,這件事已經超過普通人的能力了。

計算機還可以自動識別出所有你裡面想要的信息,比如說人名、地名、機構名、具體的數字都可以抽出來。計算機還可以像語文老師一樣把主謂賓分清楚等等,還可以用語言模型的方式幫你糾錯;用主題模型的方式幫你發現文章中的主要內容;通過語義網路的方式幫你發現所有的字詞關係;通過摘要的技術把文章做縮寫;可以提煉觀點;可以給文章打上各種各樣的標籤,做自動化的分類;可以做內容的審核;還可以寫詩,用上海+嘉興可以寫一首藏頭詩,可以用計算機寫對聯,寫詩、寫對聯都是讓計算機閱讀海量文字以後做的,出個上聯「人工智慧匯張江」,它瞬間可以寫出八個下聯,這個能力是超過普通人的。計算機還可以改寫,把一段文字改寫成不同風格的文章,比如說改成裁判文書。

今天的計算機在做文字自動化處理領域已經可以做很多意想不到的工作,這些工作我們覺得都是非常有意義的,我們希望未來有更多的應用場景,能夠把計算機做文字自動化理解用在應用場景上,這可以大幅度提高效率。

普通人一秒鐘閱讀速度差不多是20至30個漢字,差不多一條微信的長度,普通計算機一秒鐘能夠處理文字速度是一萬字。想想下,普通一台電腦可以有500倍的效能提升。上市公司的招股書很長,一個人從頭到尾看一遍要花很長時間,計算機幾秒鐘就可以看完並找出問題,可以做核對工作,這些我們覺得非常有意義。

我們今天可以做大量的工作,比如說從裡面抽取關鍵信息,一個文檔裡面的關鍵信息分布在不同的地方,比如說合同裡面有大量的關鍵信息,計算機可以自動抽,今天我們把合同上傳到系統中,一秒鐘以後計算機就可以把合同裡面要了解的關鍵信息抽取出來,幫你自動填表、自動錄入、自動核對。各種各樣的金融報告、人事簡歷、用戶意見觀點或者是司法、政府文書的內容審查等,這些都是信息抽取的相關工作。

審閱,今天有很多初級審閱工作是非常繁瑣的,最基礎的幫你找錯誤,這些非常繁瑣,我們人腦不善於處理非常枯燥的文字核對糾正工作,但計算機非常擅長做這一點,所以審核是非常常見的需求。

搜索,那更有用了,從大量的文檔資料中找一個東西,我們需要大量的語義分析工作。

推薦,最近幾年炙手可熱的領域,尤其是在移動互聯網時代,大家已經習慣信息流這樣的內容獲取方式,後台需要有一套計算機自動閱讀的系統幫你做好文字的閱讀理解和內容分析,並且完成個性化的推薦系統,這也是非常受歡迎的功能。

所以在很多行業,比如科技金融、傳媒製造等等,只要有文字、文檔的地方,我們的計算機自動閱讀理解的技術都可以大幅度地提高效率、節約成本、提高準確率,我們覺得這件事非常有意義。

我們現在也服務了非常多的中國企業,我們希望未來有更多的企業能夠用上達觀的系統。

我現在做個展望,對於機械性、重複性文字資料的操作,計算機的能力很快會超過人類。其實我們今天在一些特別基礎的文字處理方面,比如前面彈幕裡面放得比較快的計算機給你分析一句話的主語、謂語、賓語這樣的句法結構分析,小學三四年級語文老師會教我們,但是今天在座嘉賓大部分人可能已經很難把一句話的主語、謂語、賓語劃分得很清楚,把字詞之間的關係像當年我們學語文一樣釐清得清清楚楚。但是今天計算機可以把這件事做得非常好,遠遠超過普通人的能力,基本上達到小學語文老師的水平。

所以我們說有大量的機械性、重複性的文字操作工作,十年以後有大量的基礎性文字處理工作,計算機都可以代表人來做。其實人類就應該做更有創造性的文字處理工作,我們放飛自己的思路,去聯想、創造,那些特別枯燥、重複的文檔處理工作就應該交給機器做,就不應該耗費我們每天那麼多的時間,我們希望未來各行各業都有計算機能夠完全替代的部分工作,我們希望達觀數據能夠成為中國文字處理的領軍企業,謝謝各位!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 獵雲網 的精彩文章:

Netflix發布2018年Q2財報:營收39億美元,凈利同比增長482%
眾籌上線60小時賣出5000台,逗映科技瞄準社交領域打造高性價比的入門級航拍機

TAG:獵雲網 |