當前位置:
首頁 > 科技 > 語音識別+歌聲合成,思必馳的新產品想讓普通人「讀詩成曲」

語音識別+歌聲合成,思必馳的新產品想讓普通人「讀詩成曲」

在小年夜,中央電視台《經典詠流傳》第二季節目中出現了一款「讀詩成曲」的在線互動小工具,用戶僅需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經典詩詞唱段。那這是怎麼實現的呢?

原來,「讀詩成曲」的背後是思必馳提供的個性化歌聲合成演算法。歌聲合成技術是語音合成(TTS,即 Text to Speech)的衍生品,其關鍵區別在於韻律預測模型不同。在普通TTS系統中,通常有個韻律模型來根據句子的內容和語調環境預測每個音素(音節)的時長和音高曲線。在歌聲合成中,這個韻律模型則更換成由樂譜來預測每個音素(音節)的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似,將韻律參數和頻譜參數結合,生成歌聲。

在「讀詩成曲」中,韻律預測模型可以使得機器根據人說話的語調合成歌曲,且根據唱段的韻律和節奏調整音調,這又是如何實現的呢? 思必馳首席科學家初敏博士告訴36氪:韻律方面,思必馳在原有歌曲韻律模型的基礎上增加了個性化學習技術,結合曲庫和名曲唱段的特徵生成相應的韻律曲線,使歌曲韻律特徵盡量接近名曲唱段的特點;在語調方面,思必馳應用了聲學模型的個性化學習技術,使得生成的頻譜參數盡量接近用戶的聲音,通過將接近用戶的頻譜參數和接近名曲唱段的韻律參數結合,就能生成用戶「原聲」唱出的「經典」曲調了。

36氪注意到,這並非思必馳首次將個性化歌聲合成技術運用於泛娛樂領域,此前在央視節目《機智過人》中,思必馳團隊的「小馳」機器人就曾用撒貝南的聲音演唱過《好久不見》。不同於以往,此次「讀詩成曲」則在曲目和參與度上更為開放,支持任何用戶從既定曲庫中自選歌曲,曲庫主要來自節目第一季、第二季嘉賓的演唱曲目。

近兩年,語音合成技術進入商業落地加速期,除BAT大廠紛紛著眼外,此前36氪也曾報道過標貝科技等創業公司。除了在泛娛樂領域布局,思必馳又會如何將語音合成技術商業落地呢?據初敏博士透露,思必馳更多會將語音合成技術與語音識別、口語理解等演算法配套,為泛物聯網領域產品提供全鏈路對話交互方案。

具體來說,思必馳當前的業務圍繞四個AI進行整體布局:AIOT、AI晶元、AIBOT、AI生態。AIOT業務在泛物聯網領域(包括智能車載、智能家居、智能玩具/機器人、智能手機等)提供軟體、軟硬一體化、Turnkey一站式等多樣化方案。在車聯網後裝、智能音箱、兒童平板/故事機、知識機器人等領域市場佔有率均第一,在汽車前裝、電視/白電、智能客服等重點領域市場增速領先。未來,思必馳將以「雲+芯」戰略方向為主,整合智能終端方案能力與全渠道智慧服務能力,形成All In One解決方案,進入酒店、地產、物流、養老、醫療、教育、安全、社區等更多行業。

據悉,在語音合成領域,目前思必馳已可以提供標準男女聲、童聲、名人合成音等,在最新推出的DUI平台Voice Shop中,提供100 特色的高自然度合成音,並為不同廠商提供個性化定製服務打造voice-IP。

————

我是鄭銦,36氪超人學院創始學員,關注NLP、AR/VR、物聯網、邊緣計算、半導體,項目交流請加微信zhengbaobao097825,註明公司、職位、姓名。

超人學院相信早期生態推動社會變革,使命是為早期生態培養領袖人才,詳情請戳36氪想要為進入創投圈的年輕人做一所「超人學院」,你來不來


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 36氪 的精彩文章:

蘋果自動駕駛汽車新專利曝光,不過具體上市時間並不清楚
影院渠道下沉疊加返鄉效應?2019或將迎來最強春節檔

TAG:36氪 |