「囧」迫的百度 背鍋的輸入法
在近日舉辦的愛奇藝世界大會上,百度董事會副主席,集團總裁兼COO陸奇出席受到關注,但其一頁PPT中竟然出現了三處中文錯誤,導致朋友圈刷屏傳播,令百度陷入了尷尬的處境之中。
雖然百度公關團隊及時做了回應,以一篇《PPT還有這種操作? | 這屆百度公關》做了洗白,態度也算誠懇,自嘲也算幽默,但大寫的「囧」字,仍然明明白白的寫在百度的臉上!
雖然百度公關團隊給出了ABC等各種理由,但「PPT難道還有這種操作?!」,因此,有某互聯網廠商認為最大的「背鍋俠」就是——輸入法。
而作為一名關注於技術和開發者的CSDN的技術型小編,小編不想在這裡就這個事情如何發生的進行討論,只是想探究一下,這究竟是不是輸入法的錯?!
小編試著用百度本家的百度輸入法輸入了「前瞻布局」四個字的拼音,結果如下:
結果正確!但不知這是不是昨天百度事件後,百度輸入法的大數據演算法的成果,因為這個詞後面有了一個「雲朵」。
然後,小編又試了一下蘋果公司自帶的拼音輸入法,結果如下:
結果正確!!
小編又試了一下自己Surface里自帶的微軟輸入法,發現微軟輸入法不能連續輸入「前瞻布局」,四個字的拼音,只能先輸入「前瞻」的拼音,確認後再輸入「布局」的拼音,但最後出現的結果,也是——正確!!!
那就奇怪了,這到底是不是輸入法的問題呢?而要探究這樣的問題,就要從輸入法辭彙聯想背後的技術實現說起。
輸入法猜你喜歡
好的詞庫還需要搭配智能的演算法,只有依靠智能演算法才能將字型檔的功能充分發揮出來。現在大多數輸入法能夠自動分析用戶的輸入,選擇和調整接下來文字顯示的優先順序,這樣既可以可以大大降低詞語拼錯的可能性,同時方便用戶高效選擇輸入,這種功能的實現是藉助輸入法後台強大的演算法實現的。比如搜狗輸入法,在你首次輸入「dnahz」並選擇「電腦愛好者」後,它就會「記憶」下你的選擇,等再次輸入「dnahz」,它就會智能判斷你可能要輸入「電腦愛好者」,於是將這一片語調整到優先選擇的位置。如果你多次輸入「dnahz」但選擇的是不同的片語,這時輸入法的演算法程序會根據你選擇的頻率(選的最多),將你最有可能想要的結果放在優先的位置。
大數據統計是辭彙聯想的核心
上面的根據詞頻調整,已經具有初步的學習功能了,而優秀的輸入法還可以智能聯想、智能糾錯、智能組句。有時我們會發現,剛剛輸入一兩個字母,輸入法就已經給出我們想要的長長的片語,非常智能。這些看起來有些神秘,但它們的演算法核心其實很簡單,就是大數據統計,聊天、寫作、打報告,你每天究竟打了多少字,也許你自己並不清楚,但你所用的輸入法卻在默默地記錄著,你每一次的輸入每一次的選擇,都會納入它統計的數據中,正是根據這些數據分析得出你常用的詞語,以及你特殊的喜好和選擇。所以,並非輸入法「聰明」,而是我們自己「出賣」了自己。
哈哈,估計某互聯網廠商所猜想的百度PPT的錯誤就是這個辭彙聯想功能惹得禍了,但小編從常識來推想,有多少人會經常打「部局」這個詞呢,小編又嘗試了很多種輸入法,想用拼音連打的方式打出「部局」兩個字來,但無論是採用何種輸入法,「布局」都是排在第一位,而「部局」兩個字通常都在第7、8或者更靠後的位置,甚至有些輸入法都不能一下子打出這兩個字,除非故意選擇。因此,從大數據分析角度來講,如果製作PPT的人員採用的是拼音輸入法,除非製作PPT的工作人員經常拼寫「部局」兩個字,從而導致大數據分析技術認為「部局」兩個字是他經常使用的辭彙而將之排在辭彙選擇的第一位而導致錯誤發生之外,應該沒有其他更好的解釋,但從常識判斷,又有多少人會經常使用這個不常有的詞呢?!
所以,百度PPT事件讓輸入法做背鍋俠,有失偏頗,這個鍋實在是不能讓輸入法來背!
引申閱讀
輸入法的基本原理
輸入法作為現在工作學習必用的工具軟體,各大IT公司,無論國際IT巨頭微軟、谷歌,還是國內IT大腕百度、騰訊、搜狐,他們都紛紛推出自家輸入法軟體來搶佔這個市場。那麼輸入法背後的技術原理是什麼,它是怎麼來實現文字高效輸入的?下面小編就以拼音輸入法這種最常用的輸入法為例來一探究竟。
認識碼錶文件
我們先來了解一下文字輸入過程,比如要在百度搜索中使用搜狗輸入法輸入「電腦」作為關鍵字進行搜索。首先要切換到「搜狗輸入法」,接著在鍵盤上鍵入「diannao」,此時在輸入法狀態欄會出現多個符合「diannao」編碼的漢字或片語,我們選擇「電腦」後就可以實現字元的輸入了(圖1)。
圖1 選擇符合編碼的字元輸入漢字
可以看到,文字輸入過程主要是輸入編碼,然後根據編碼選擇所需字元的過程。因此Windows系統下漢字輸入法實際就是:將輸入的標準ASCII字元串(英文字元),按照一定的編碼規則轉換為漢字或片語。在將英文字元轉換成漢字的過程中,碼錶文件(字型檔)起到了關鍵作用,碼錶文件有點類似英漢詞典,將特定組合的英文字元與漢語字詞一一對應起來。比如打開搜狗字型檔文件,就可以看到我們上面輸入的「dian』nao」對應的正是漢語「電腦」(圖2)。
圖2 查看輸入法字型檔編碼
高效輸入探秘
一款優秀的輸入法必須要讓使用者能夠實現高效輸入,這就要求每款輸入法 有自己的特色功能。全面才會準確,日常使用中我們需要輸入一些生僻字、網路流行語,如果輸入法的字型檔不夠全面的話就無法輸入。現在的輸入法一方面藉助本地字型檔,另一方面則充分發揮「雲字型檔」優勢,可以將生僻字、網路流行語等一網打盡。比如必應輸入法運用微軟亞洲研究院的創新研究成果,優化了核心引擎,加上雲端伺服器的無限量存儲和計算能力,即使我們輸入類似「weiruankinecttaicoolle」中文拼音與英語相混合的字元串,它也可以智能識別(圖3)。
圖3 輸入法強大字型檔和識別能力
輸入法稿「兼職」
除了識別編碼的輸入,現在輸入法的擴展功能也越來越多。一方面是擴展字元的輸入方式,比如為了方便用戶輸入不會讀音但會寫的漢字,搜狗輸入法提供了手寫組件,啟動該組件後只要使用滑鼠將字寫出來,我們就可以在識別框進行選擇輸入(圖4)。
圖4 搜狗拼音的手寫輸入
圖5 整合搜索功能的谷歌輸入法
打造自己的輸入法
從上面介紹我們知道,輸入法的核心實際上就是碼錶文件,因此只要我們自己製作好碼錶文件,然後利用一些輸入法生成器即可生成自己的輸入法。如果覺得自己製作麻煩,還可以直接提取當前輸入法的字型檔,比如搜狗輸入法,打開設置屬性窗口後切換到「詞庫」,然後在「詞庫選擇」下拉列表選擇「導出文本詞庫」,這樣即可獲得碼錶源文件(圖6)。
圖6提取當前輸入法詞庫
獲取碼錶源文件後,我們既可以利用微軟免費提供的「輸入法生成器」,也可以使用第三方的「多多輸入法生成器」來生成自己的輸入法!
來源:CSDN大數據
股票大師門徒培訓班
股票基礎知識
股票估值
股票投資分析
股票投資大師流派
投資策略及運用案例
2017年7月8—9日 北京
點擊展開全文


※智能投顧新思維 量化交易者的饕餮盛宴 2017 交易開拓者量化建模與實戰第一期
※比特幣的原理及運作機制
※墨爾本這個亞裔小屁孩,昨天震驚了全世界!10歲的小孩,竟然辦了大人都為難的事…
※從學歷到就業情況,7張圖描繪美國大數據人才的高薪路徑
TAG:大數據實驗室 |
※別讓全行業的尊嚴,為你的二逼背鍋
※以戰機進入伊腹地偵查,卻被導彈擊落,俄方很無奈的背鍋
※職場中不背鍋的最好方法,那就是郵件溝通
※印度購買武器炸膛,又怪到中國身上,這次絕不再背鍋
※《地球最後的夜晚》營銷背鍋?票房跳水式下降,口碑兩極化
※他們輸了一場最不能輸的球,如果降級他最該背鍋!
※漢化組又背鍋:免費漢化被盜用,不良商販居然植入收費界面
※轟動加國的「剪頭巾」事件純屬捏造,無端背鍋的華人怒了!
※替罌粟背鍋的,又雙叒叕多了一個
※差點就背鍋了!亨德森喝口水壓壓驚深情一吻獻
※火箭輸球,這兩人必須背鍋!而他的低迷,或將成為勇士的突破口
※電競一哥離婚被水軍狂踩,控制欲成背鍋俠,婚姻不是一個人的遊戲
※怎麼努力都不能減肥?背鍋的來了……
※送走了甜瓜,火箭真的變強了嗎?瓜哥終於不用背鍋了!
※別再讓泡麵背鍋了,這4種常吃的零食,才是真正的「垃圾食品」!
※五小戰術失靈!放走阿里扎之人也該背鍋 他讓火箭陷入困境
※影視上最慘的背鍋俠居然是它,真的太無辜了
※何潔一手好牌打的稀爛,赫子銘成為了最冤的背鍋俠
※贏了深藏功與名輸了不背鍋,麻辣香鍋或成RNG完美退役的人
※作戰行動,士兵打完彈匣真的就直接扔掉嗎?影視劇又要背鍋了