「囧」迫的百度背鍋的輸入法

科技 06-12

在近日舉辦的愛奇藝世界大會上，百度董事會副主席，集團總裁兼COO陸奇出席受到關注，但其一頁PPT中竟然出現了三處中文錯誤，導致朋友圈刷屏傳播，令百度陷入了尷尬的處境之中。

雖然百度公關團隊及時做了回應，以一篇《PPT還有這種操作？ | 這屆百度公關》做了洗白，態度也算誠懇，自嘲也算幽默，但大寫的「囧」字，仍然明明白白的寫在百度的臉上！

雖然百度公關團隊給出了ABC等各種理由，但「PPT難道還有這種操作？！」，因此，有某互聯網廠商認為最大的「背鍋俠」就是——輸入法。

而作為一名關注於技術和開發者的CSDN的技術型小編，小編不想在這裡就這個事情如何發生的進行討論，只是想探究一下，這究竟是不是輸入法的錯？！

小編試著用百度本家的百度輸入法輸入了「前瞻布局」四個字的拼音，結果如下：

結果正確！但不知這是不是昨天百度事件後，百度輸入法的大數據演算法的成果，因為這個詞後面有了一個「雲朵」。

然後，小編又試了一下蘋果公司自帶的拼音輸入法，結果如下：

結果正確！！

小編又試了一下自己Surface里自帶的微軟輸入法，發現微軟輸入法不能連續輸入「前瞻布局」，四個字的拼音，只能先輸入「前瞻」的拼音，確認後再輸入「布局」的拼音，但最後出現的結果，也是——正確！！！

那就奇怪了，這到底是不是輸入法的問題呢？而要探究這樣的問題，就要從輸入法辭彙聯想背後的技術實現說起。

輸入法猜你喜歡

好的詞庫還需要搭配智能的演算法，只有依靠智能演算法才能將字型檔的功能充分發揮出來。現在大多數輸入法能夠自動分析用戶的輸入，選擇和調整接下來文字顯示的優先順序，這樣既可以可以大大降低詞語拼錯的可能性，同時方便用戶高效選擇輸入，這種功能的實現是藉助輸入法後台強大的演算法實現的。比如搜狗輸入法，在你首次輸入「dnahz」並選擇「電腦愛好者」後，它就會「記憶」下你的選擇，等再次輸入「dnahz」，它就會智能判斷你可能要輸入「電腦愛好者」，於是將這一片語調整到優先選擇的位置。如果你多次輸入「dnahz」但選擇的是不同的片語，這時輸入法的演算法程序會根據你選擇的頻率（選的最多），將你最有可能想要的結果放在優先的位置。

大數據統計是辭彙聯想的核心

上面的根據詞頻調整，已經具有初步的學習功能了，而優秀的輸入法還可以智能聯想、智能糾錯、智能組句。有時我們會發現，剛剛輸入一兩個字母，輸入法就已經給出我們想要的長長的片語，非常智能。這些看起來有些神秘，但它們的演算法核心其實很簡單，就是大數據統計，聊天、寫作、打報告，你每天究竟打了多少字，也許你自己並不清楚，但你所用的輸入法卻在默默地記錄著，你每一次的輸入每一次的選擇，都會納入它統計的數據中，正是根據這些數據分析得出你常用的詞語，以及你特殊的喜好和選擇。所以，並非輸入法「聰明」，而是我們自己「出賣」了自己。

哈哈，估計某互聯網廠商所猜想的百度PPT的錯誤就是這個辭彙聯想功能惹得禍了，但小編從常識來推想，有多少人會經常打「部局」這個詞呢，小編又嘗試了很多種輸入法，想用拼音連打的方式打出「部局」兩個字來，但無論是採用何種輸入法，「布局」都是排在第一位，而「部局」兩個字通常都在第7、8或者更靠後的位置，甚至有些輸入法都不能一下子打出這兩個字，除非故意選擇。因此，從大數據分析角度來講，如果製作PPT的人員採用的是拼音輸入法，除非製作PPT的工作人員經常拼寫「部局」兩個字，從而導致大數據分析技術認為「部局」兩個字是他經常使用的辭彙而將之排在辭彙選擇的第一位而導致錯誤發生之外，應該沒有其他更好的解釋，但從常識判斷，又有多少人會經常使用這個不常有的詞呢？！

所以，百度PPT事件讓輸入法做背鍋俠，有失偏頗，這個鍋實在是不能讓輸入法來背！

引申閱讀

輸入法的基本原理

輸入法作為現在工作學習必用的工具軟體，各大IT公司，無論國際IT巨頭微軟、谷歌，還是國內IT大腕百度、騰訊、搜狐，他們都紛紛推出自家輸入法軟體來搶佔這個市場。那麼輸入法背後的技術原理是什麼，它是怎麼來實現文字高效輸入的？下面小編就以拼音輸入法這種最常用的輸入法為例來一探究竟。

認識碼錶文件

我們先來了解一下文字輸入過程，比如要在百度搜索中使用搜狗輸入法輸入「電腦」作為關鍵字進行搜索。首先要切換到「搜狗輸入法」，接著在鍵盤上鍵入「diannao」，此時在輸入法狀態欄會出現多個符合「diannao」編碼的漢字或片語，我們選擇「電腦」後就可以實現字元的輸入了（圖1）。

圖1 選擇符合編碼的字元輸入漢字

可以看到，文字輸入過程主要是輸入編碼，然後根據編碼選擇所需字元的過程。因此Windows系統下漢字輸入法實際就是：將輸入的標準ASCII字元串（英文字元），按照一定的編碼規則轉換為漢字或片語。在將英文字元轉換成漢字的過程中，碼錶文件（字型檔）起到了關鍵作用，碼錶文件有點類似英漢詞典，將特定組合的英文字元與漢語字詞一一對應起來。比如打開搜狗字型檔文件，就可以看到我們上面輸入的「dian』nao」對應的正是漢語「電腦」（圖2）。

圖2 查看輸入法字型檔編碼

高效輸入探秘

一款優秀的輸入法必須要讓使用者能夠實現高效輸入，這就要求每款輸入法有自己的特色功能。全面才會準確，日常使用中我們需要輸入一些生僻字、網路流行語，如果輸入法的字型檔不夠全面的話就無法輸入。現在的輸入法一方面藉助本地字型檔，另一方面則充分發揮「雲字型檔」優勢，可以將生僻字、網路流行語等一網打盡。比如必應輸入法運用微軟亞洲研究院的創新研究成果，優化了核心引擎，加上雲端伺服器的無限量存儲和計算能力，即使我們輸入類似「weiruankinecttaicoolle」中文拼音與英語相混合的字元串，它也可以智能識別（圖3）。

圖3 輸入法強大字型檔和識別能力

輸入法稿「兼職」

除了識別編碼的輸入，現在輸入法的擴展功能也越來越多。一方面是擴展字元的輸入方式，比如為了方便用戶輸入不會讀音但會寫的漢字，搜狗輸入法提供了手寫組件，啟動該組件後只要使用滑鼠將字寫出來，我們就可以在識別框進行選擇輸入（圖4）。

圖4 搜狗拼音的手寫輸入

圖5 整合搜索功能的谷歌輸入法

打造自己的輸入法

從上面介紹我們知道，輸入法的核心實際上就是碼錶文件，因此只要我們自己製作好碼錶文件，然後利用一些輸入法生成器即可生成自己的輸入法。如果覺得自己製作麻煩，還可以直接提取當前輸入法的字型檔，比如搜狗輸入法，打開設置屬性窗口後切換到「詞庫」，然後在「詞庫選擇」下拉列表選擇「導出文本詞庫」，這樣即可獲得碼錶源文件（圖6）。