語音識別＋歌聲合成，思必馳的新產品想讓普通人「讀詩成曲」

科技 01-29

在小年夜，中央電視台《經典詠流傳》第二季節目中出現了一款「讀詩成曲」的在線互動小工具，用戶僅需要朗讀一段詩詞，就可以聽到用自己聲音演唱的經典詩詞唱段。那這是怎麼實現的呢？

原來，「讀詩成曲」的背後是思必馳提供的個性化歌聲合成演算法。歌聲合成技術是語音合成（TTS,即 Text to Speech)的衍生品，其關鍵區別在於韻律預測模型不同。在普通TTS系統中，通常有個韻律模型來根據句子的內容和語調環境預測每個音素（音節）的時長和音高曲線。在歌聲合成中，這個韻律模型則更換成由樂譜來預測每個音素（音節）的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似，將韻律參數和頻譜參數結合，生成歌聲。

在「讀詩成曲」中，韻律預測模型可以使得機器根據人說話的語調合成歌曲，且根據唱段的韻律和節奏調整音調，這又是如何實現的呢? 思必馳首席科學家初敏博士告訴36氪：韻律方面，思必馳在原有歌曲韻律模型的基礎上增加了個性化學習技術，結合曲庫和名曲唱段的特徵生成相應的韻律曲線，使歌曲韻律特徵盡量接近名曲唱段的特點；在語調方面，思必馳應用了聲學模型的個性化學習技術，使得生成的頻譜參數盡量接近用戶的聲音，通過將接近用戶的頻譜參數和接近名曲唱段的韻律參數結合，就能生成用戶「原聲」唱出的「經典」曲調了。

36氪注意到，這並非思必馳首次將個性化歌聲合成技術運用於泛娛樂領域，此前在央視節目《機智過人》中，思必馳團隊的「小馳」機器人就曾用撒貝南的聲音演唱過《好久不見》。不同於以往，此次「讀詩成曲」則在曲目和參與度上更為開放，支持任何用戶從既定曲庫中自選歌曲，曲庫主要來自節目第一季、第二季嘉賓的演唱曲目。

近兩年，語音合成技術進入商業落地加速期，除BAT大廠紛紛著眼外，此前36氪也曾報道過標貝科技等創業公司。除了在泛娛樂領域布局，思必馳又會如何將語音合成技術商業落地呢？據初敏博士透露，思必馳更多會將語音合成技術與語音識別、口語理解等演算法配套，為泛物聯網領域產品提供全鏈路對話交互方案。

具體來說，思必馳當前的業務圍繞四個AI進行整體布局：AIOT、AI晶元、AIBOT、AI生態。AIOT業務在泛物聯網領域（包括智能車載、智能家居、智能玩具/機器人、智能手機等）提供軟體、軟硬一體化、Turnkey一站式等多樣化方案。在車聯網後裝、智能音箱、兒童平板/故事機、知識機器人等領域市場佔有率均第一，在汽車前裝、電視/白電、智能客服等重點領域市場增速領先。未來，思必馳將以「雲＋芯」戰略方向為主，整合智能終端方案能力與全渠道智慧服務能力，形成All In One解決方案，進入酒店、地產、物流、養老、醫療、教育、安全、社區等更多行業。

據悉，在語音合成領域，目前思必馳已可以提供標準男女聲、童聲、名人合成音等，在最新推出的DUI平台Voice Shop中，提供100 特色的高自然度合成音，並為不同廠商提供個性化定製服務打造voice-IP。

————

我是鄭銦，36氪超人學院創始學員，關注NLP、AR/VR、物聯網、邊緣計算、半導體，項目交流請加微信zhengbaobao097825，註明公司、職位、姓名。

超人學院相信早期生態推動社會變革，使命是為早期生態培養領袖人才，詳情請戳36氪想要為進入創投圈的年輕人做一所「超人學院」，你來不來

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 36氪 的精彩文章:

※蘋果自動駕駛汽車新專利曝光，不過具體上市時間並不清楚
※影院渠道下沉疊加返鄉效應？2019或將迎來最強春節檔

TAG:36氪 |