當前位置:
首頁 > 最新 > 無障礙人機交互時代已向我們走來,標貝科技推出語音合成評測系統!

無障礙人機交互時代已向我們走來,標貝科技推出語音合成評測系統!

在AI語音交互全流程中,面對語音識別、語義分析、語音合成這三座大山,我們仍然需要不忘初心,砥礪前行,以期獲得更為自然、富有情感的人機交互體驗。

標貝科技是一家專註於人工智慧數據服務的公司,一直以來秉承為客戶提供專註、專業、高質的數據服務,其更致力於有著較高技術含量的語音合成領域的深耕與研究。標貝科技在語音合成領域,提供包括發音人選擇、語料設計、語音採集、數據處理、語音深度加工等,數據類型上包括文本數據、語音數據等,服務包括TTS評測系統等,為客戶提供一整套的定製化語音合成服務。

TTS即是「語音合成」又稱「文語轉換」(Text-To-Speech),指通過機械的、電子的方法生成語音的技術。當前TTS系統可分為前端和後端兩部分。前端完成輸入文本的歸一化、分詞、發音預測、韻律結構預測的處理;後端對聲音建模,通過學習得到聲音參數合成聲音。由於自然語音本身的複雜性和開放性,前端處理部分難度大,需覆蓋面廣,導致該部分一直是語音合成領域的重點和難點。

目前成熟的語音合成技術分兩種,第一種稱為拼接法。把語音裡面所有的語料基礎片段都錄好,再根據需要,利用技術手段擇取語音單元,並拼接成具體話語,這種方法需要大量的語音錄製。第二種稱為參數法。基於有限的語料數據通過參數模型訓練,合成新語段,參數法的優勢在於對錄音數量要求較少,幾千句話就能出一個合成效果。無論用戶用哪種合成技術,都離不開專業的語音數據服務,而標貝最核心的業務恰恰是提供優質的語音數據,讓用戶可以專心於合成技術的研發,快速實現高質量的合成系統。

在自然語言、語音合成領域,發展速度較快。但是我們在與智能設備進行互動時,回傳到耳朵里的,仍然是滿滿「機械感」、缺少情感的聲音。要解決這一問題,基礎建設是關鍵。目前TTS評測系統測試階段,為人工智慧語音技術公司提供免費評測服務,歡迎業內人士提出寶貴建議,共同完善TTS評測系統。

標貝科技首發TTS評測系統,並針對語音合成系統提供了一整套的TTS前端解決方案。標貝科技的評測系統主要分為兩大模塊,即:合成缺陷度評測和合成自然度評測。其合成缺陷度主要體現為韻律、多音字、數字元號及分詞詞性四個模塊。針對這四個模塊的評測,即為TTS缺陷度評測。合成自然度評測則包括ABX和MOS評測。

GIF

韻律評測

韻律層級預測錯誤,直接影響句子的自然度及可懂度。此模塊以涵蓋10個領域的測試集對TTS前端系統進行韻律處理的評測,對處理結果進行對比分析,將TTS前端韻律處理的問題呈現給用戶,通過正確率,反映問題所在。

GIF

多音字評測

多音字是影響句子可懂度的一個重要因素,此模塊以涵蓋100餘個常用多音字的測試集對TTS前端系統進行多音字處理的評測,並對處理結果進行對比分析,讓用戶了解TTS前端多音字的問題所在。

GIF

數字元號評測

數字元號的類型多樣,常以混合方式出現在各個領域的文字中。數字元號的預測錯誤對句子的理解及句意的表達會產生重大影響。此模塊以涵蓋多種類型的數字、符號及組合測試集對TTS前端系統的數字元號模塊進行評測,呈現結果讓用戶有針對性的解決關鍵問題。

GIF

分詞詞性評測

分詞詞性的正確與否,會影響韻律及多音字的正確率。分詞詞性的預測錯誤,是導致韻律錯誤的主要因素之一,從而影響句子的自然度和可懂度。此模塊的測試,可以幫助客戶了解此模塊的性能,從而得到進一步改進。

GIF

ABX&MOS評測

ABX和MOS的評測,即為TTS合成自然度的評測。以代表不同的TTS用戶群體的評測人員,分別以橫向和縱向兩種不同的方式對TTS合成系統的自然度和流暢度進行評測。目的在於,讓用戶了解自身TTS系統的優化空間及市場競爭力。

GIF

綜合評測

標貝科技針對用戶的TTS語音,從TTS前端的文本預處理、文本分析、韻律層級預測到TTS音高、時長等聲學參數,以及聲碼器等影響語音生成的因素進行分析,查找問題源頭,提供合理建議及問題解決方案,從而提高合成效果。

標貝科技依靠對語音合成領域的經驗所提供的TTS評測系統,解決語音合成的本質問題,讓語音在人機交互的作用發揮上有了更多想像空間!


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 標貝科技 的精彩文章:

TAG:標貝科技 |