當前位置:
首頁 > 最新 > 為了讓Siri更智能 蘋果想出了這些新穎的招數

為了讓Siri更智能 蘋果想出了這些新穎的招數

Siri 即將起飛

就在昨天,我們才剛剛討論了 Siri 部門的換帥。如今掌管 Siri 業務的不再是原先的內容主管艾迪·庫伊,而是軟體工程主管克雷格·費德里吉。費德里吉負責監管 iOS、macOS 等蘋果旗下的操作系統。很明顯,蘋果這是要將 Siri 更加深度地整合進系統中了。甚至於在人們對未來的展望中,Siri 有可能成為一個核心的平台。

Siri 的即將起飛是毋庸置疑的,因為只要對蘋果的動態稍有了解的,就會發現這個語音助手已經滲透進了蘋果旗下的每一個平台中,iOS、macOS、watchOS 和 tvOS 都是如此。也就是從近幾年開始,蘋果就一直在致力於 Siri 的部署,其態度越發明顯。

但是 Siri 如果想要真正成為一個有巨大潛力的語音助手,那它就必須得基本功紮實,也就是足夠智能。在這一點上,人們曾經以為那是蘋果的傳統弱勢,但事實已經證明了它並沒有放棄 AI 技術領域的研究,而且現在的態度相比過往更具侵略性。

不過說了那麼久的蘋果要發力,發力有沒有效果呢?這些我們還是得實際的進展才行。好在蘋果最近在自己的機器學習博客上更新了數篇文章,有趣的是它們全都和 Siri 有關。

蘋果的進展

早在今年 7 月的時候,蘋果就開設了一個新的官方博客,專門刊載自家 AI 及機器學習的技術進展。蘋果這樣做的目的很簡單,一是為了向人們宣傳自己的技術實力,第二則是吸引更多的技術人才。該博客的第一篇技術文章主要和圖片識別有關,之後就全部是 Siri 相關的內容了,可見蘋果的重視程度。

目前蘋果博客中與 Siri 有關的這些文章中,最主要的是看和說這兩個方面,即文本顯示,以及合成語音。這兩個方面,涵蓋了我們現在能夠接觸到的 Siri 的大部分體驗。

除了語音之外,Siri 在回答我們的問題時也會給出一定的文本反饋。可能人們認為 Siri 給出的那些文本全部都是預存好的,但其實涉及到日期、時間、地址、匯率這些信息的顯示時,是需要一定的技術含量的。蘋果表示,Siri 之所以能夠將這些信息以一種符合規格的方式列出來,多虧了一種名為「逆反文本標準化(ITN)」的技術。ITN 能夠讓統計模型的應用變得更加簡單、緊湊,且容易訓練。

儘管在我們看來,Siri 顯示的文本是和它說出的語音是一致的,但實際上有時候還是會有所不同,那就是格式的問題。我們舉時間顯示的例子,如果沒有 ITN 系統,Siri 在顯示文本時就會照著語音念的那樣:「現在的時間是十點零五分。」雖然這樣也不是不行,但有了 ITN 之後,它就會轉換成更容易閱讀,更標準化的「現在的時間是 10:05」。

格式標準化的問題看似很好解決,實際上蘋果表示按語句串去逐條訓練的話,成本高昂,而且對數據量的要求太高。因此它才提出 ITN 的概念,用以更快地解決信息格式標準的問題。簡單來說,在把握了句子核心含義的前提下,ITN 能夠將語音說出來的信息加上標籤,然後進行相應的轉換。比如當語音說出「十點零五分」時,系統將這些信息各自分成諸如「十點」、「零五分」這樣的信息,然後加上對應的標籤加以區分,轉換為實際文本顯示的格式「10:05」。

這樣的文本顯示結果有時候還要加上最後的處理,以讓它更加規範,比如顯示貨幣時的「一點零零元」,不僅要將「一點零零」轉化為「1:00」,「元」還得變成「¥」符號放在最前面。這樣的訓練就相當於引入了規律,這樣就能讓系統更快地掌握某種格式的正確寫法了,無論數值和單位如何變化。

至於「說」這部分則更為重要,因為 Siri 作為語音助手,就是主要通過語音和我們互動的。、目前業界廣泛採用的語音合成技術主要有單元選擇和參數合成兩種方案。單元選擇因為是直接從錄製庫里摘取句段,所以語音的質量會很高,但可能會有生硬和不靈活的問題。參數合成當然顯得更智能、更靈活,但缺點就是語音質量普遍較低。Siri 在這之中,選擇了兩者混合的方案。

語音合成首先得有人來錄製聲音,文本內容包括書本文字、指令、笑話等。這些內容當然不能直接用,還得將它們分割成基本的「組件」,然後根據以後的實際內容,使用強制對齊手段來組成新的句子。這些語音隨後用來創建資料庫,被添加諸如上下文、聲學特質等信息,形成聲紋組成的段。

要讓合成語音變得更加自然,有兩個要素是必不可少的。首先,合成的聲音聽起來必須符合語言韻律;其次,組合而成的句子在聲紋段的結合處不能有明顯的不協調感。這兩個要素數值化後,分別被稱為目標代價函數和拼接代價函數。蘋果在 Siri 背後隱藏的最關鍵的技術被稱為「深度混合密度網路(MDN)」,它能夠被用來準確預估這兩個函數,分配波形特徵值。

最終,蘋果表示自己得到了想要的結果,並承諾 iOS 11 中的 Siri 新語音將「更自然,更流暢,讓 Siri 的個性更加閃耀」。

未來還有什麼

從蘋果的這些研究成果來看,它確實是在致力於讓 Siri 得到真正的進化,而這些都和機器學習技術有著密不可分的關係。Siri 如何與 AI 技術相結合,蘋果提出了自己獨到的看法。

我們不知道 Siri 以後會發展到什麼程度,但至少現在它走得很穩健。通過這些技術說明,可以看到蘋果正在一步步提升它的基礎能力。更重要的是這些技術的實現並不遙遠,隨著 iOS 11 的到來,這樣的體驗也會到來。

那麼未來還會有什麼呢?Siri 的業務已經轉交到了更適合的人選手上,而蘋果的技術博客肯定還會繼續更新下去,讓人們看到更多東西。至少從現在開始,我們作為普通的用戶,可以真正去期待它改變自己的生活了。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 威鋒網2007 的精彩文章:

夏普Aquos 2概念手機:前置攝像頭放在底部
關於「iPhone 8」可能取消Home鍵的一些思考
這款 MacBook Pro 保護殼可提供多個介面
如果某天MacBook屏幕能用上Force Touch
普京警告:未來是無人機的戰爭 AI霸主可統治全球

TAG:威鋒網2007 |