當前位置:
首頁 > 最新 > 試聽:機器語音越來越像人的語音

試聽:機器語音越來越像人的語音

2017年有太多AI(Artificial Intelligence)的話題,相信不久就會有各種各樣的和AI有關的年終總結和展望。的確有必要了解一下這個可能顛覆以往的技術。

機器合成語音已經被AI改造的越來越像真人發音,可以感受下應用AI的合成語音說繞口令:

「Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?」

peterpiper.wav

00:05

來自科技簡報

「She sells sea-shells on the sea-shore. The shells she sells are sea-shells I"m sure.」

seashells.wav

00:05

來自科技簡報

以下是真人和合成語音的對比,每組當中,一個是真人錄音,一個是AI合成,你能分辨出來嗎?

1、「That girl did a video about Star Wars lipstick.」

lipstick_gt.wav

00:03

來自科技簡報

lipstick_gen.wav

00:03

來自科技簡報

2、「She earned a doctorate in sociology at Columbia University.」

columbia_gt.wav

00:04

來自科技簡報

columbia_gen.wav

00:04

來自科技簡報

3、「George Washington was the first President of the United States.」

washington_gt.wav

00:04

來自科技簡報

washington_gen.wav

00:03

來自科技簡報

4、「I"m too busy for romance.」

romance_gt.wav

00:02

來自科技簡報

romance_gen.wav

00:02

來自科技簡報

要注意的是,這些語音是被訓練出來的,或者說AI「學」出來的,而不是以往用各種程序條件組合出來的。甚至沒有教給AI任何語法。設計者的目標就是希望這個AI聽的越多,說的越多然後就越來越會發音。

以上的語音來自Google推出Tacotron 2,它結合了DeepMind的WaveNet和前一版Tacotron各自的優點。

採樣點非常多

卷積神經網路

上面兩張圖片是DeepMind的兩張解釋圖,我看不懂。

Tacotron 2的模型架構

上圖是Tacotron 2的模型架構我也看不懂。但是AI合成語音技術真的很強大,因為它可以不斷學習,甚至創造。網站上還有很多AI合成的音樂,歌曲(在中國比如很流行的虛擬歌手洛天依)。

也許2018年開始,我們將分不清機器語音和人的語音,然而這沒結束,人們今後可能會學習一些機器人的語法和說話方式,畢竟它可以掌握多種語言,博古通今,記錄和分析了大量經典演講、詩歌和電影對白。我覺得它會比我初中老師強很多,語文課看來有希望了。

雖然我是AI小白,但希望我能不斷學習AI,以後能分享更多有用有趣的AI相關姿勢(:D)給大家。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 沒看過沒聽過 的精彩文章:

好項目:一種可固定在尿布上的數字感測器可穿戴技術

TAG:沒看過沒聽過 |