當前位置:
首頁 > 科技 > 無平行文本照樣破解密碼,CipherGAN有望提升機器翻譯水平

無平行文本照樣破解密碼,CipherGAN有望提升機器翻譯水平

Root 編譯整理

量子位 出品 | 公眾號 QbitAI

有一位97年的少年,本科期間就進了微軟、谷歌大腦實習。

不僅如此,他還參與了去年刷屏級論文Attention is All You Need的和One Model to Learn Them All的研究工作。

他,就是Aidan N. Gomez。

2月3號,Gomez作為一作和他在谷歌大腦的導師Kaiser往2018ICLR投的論文Unsupervised Cipher Cracking Using Discrete GANs被正式接收。

這篇論文介紹了非監督破譯密碼的模型CipherGAN,經非配對的明文密文訓練後,可以高保真地破譯凱撒移位密碼或維吉尼亞密碼。

加密 pk 解密

簡單介紹一下移位密碼和維吉尼亞密碼。

最早的加密方法,是公元前58年,凱撒出於軍事需要發明的移位密碼。

通過把明文的字母往右移三位,可得到外人看了不知所言的密文。

但這個加密方法保密性一般,只要破譯的人用窮舉法,就可以知道偏移量了。

好在,那時候的人沒什麼文化,移位密碼在軍事上用了好幾個世紀。

直到9世紀博學家AlKindi引入了字頻統計破譯法,即分析字母出現的頻率,移位密碼才終於被拉下神壇。

字頻統計,就是分析字母出現的頻率。

比如說在英語裡面,最常出現的字母是e(12.7%),t(9.1%),a(8.2%),而q,x,z每一個頻率都小於1%。還有同字母的雙字母組,ss,ee,oo,都屬於英文單詞里常見的組合。

抓住語言結構特點,密碼就迎刃而解。

移位密碼被破之後,為了對抗字頻統計破譯法,維吉尼亞密碼,最著名的多字母替換式密碼應勢而生。

維吉尼亞密碼是有個密表的,相當於26個不同偏移量的凱撒密碼疊在一起,以及以一個關鍵詞不斷重複的密鑰。

只有拿到密鑰的人對應著密表才能解出密文來。

比方說,明文是Holy high,密鑰是wow。

那麼對應著上面的密表,去w行找到h的密文是D,o行o的密文是C,以此類推,holy high的密文就是DCHU VECV。

破解密碼的表現

以往破解密碼的模型,在密文長度有限的情況下,還是可以破解出密鑰很短的密文來的,正確率不錯。

但如果密鑰的關鍵詞很長的話,正確率就很低了。

而該論文的工作,訓練數據是非配對的明文和密文,也無需預置的人類語言學知識,就可以破譯長詞級的密鑰。如下表所示

表中左邊三列是CipherGAN的表現,表右邊兩列是以往模型的表現。

可以看出來,在解密三種詞量長度(10,200,58)的密文時,CipherGAN解密移位密碼的表現近乎完美(100%,98.7%,99.8%)。

當密文有200個單詞時:

1)CipherGAN破解移位加密的正確率可達到98.7%,是以往模型的兩倍(44.5%);

2)維吉尼亞加密的密文以往模型的正確率完全不行,給了密鑰才勉強能達到44.3%,而CipherGAN的正確率可達到75.7%。可以看出來CipherGAN比較擅長破譯長詞級密鑰的密文。

該模型是基於圖像風格轉換模型CycleGAN(加我們自己的鏈接)作的修改,破譯表現遠高於以往頻率分析的模型。

針對CipherGAN可以使用非平行文本作輸入的特點,Gomez在接受Newsweek外媒採訪的時候,也提到了,「密碼破譯的模型思路也能遷移到非監督學習的翻譯上。

因為語言翻譯常面臨的難題是,缺乏足夠的平行語料。

正好和非配對明文密文的密碼破譯過程很相似。

Gomez希望Facebook和Google這種量級的巨頭公司可以繼續這個課題,把CipherGAN用在提高機器翻譯水平上。

「我們提出的演算法,對任何兩種文本信息都是通用的。不一定非要純文本或者暗號,也可以是英語和法語。」Gomez說。

OMT

破解密碼模型工作的,是整個for.ai研究團隊。一共5個小夥子,都是多倫多大學計算機系的學生。

Gomez文章開頭介紹過就不多說了。

左一是還在念大三的Sheldon Huang,創辦了多倫多大學機器智能學生社團UTMIST,是UTMIST主席。

左二是已經休學的Ivan Zhang,曾在Ranomics工作了兩年,加入For.ai將近1年。

右二是Muhammad Osama,今年Gomez一起拿到了榮譽學士學位,於18年6月畢業。

最右邊的是香港小夥子Bryan Li,曾在華為香港和AMD實習過。

除了專研AI課題,這幾個小夥子還在自己的簡歷里談到自己有不少興趣愛好,有喜歡畫畫的,有喜歡攝影的,還有喜歡玩樂器的。

量子位前往個人的Ins上推上看了看,樣樣出手都鵝妹子嚶。大家感受一下

The darker the night, the brighter the stars

by Bryan Li

最後,附論文地址,

https://arxiv.org/abs/1801.04883

及高質的同行評議,

https://openreview.net/forum?id=BkeqO7x0-

及開源代碼的地址,

https://github.com/for-ai/CipherGAN

For.ai團隊的官網

https://For.ai

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

對話彭軍、樓教主:1.12億美元融資來了,Pony.ai車隊也已在路上

TAG:量子位 |