試聽:機器語音越來越像人的語音
2017年有太多AI(Artificial Intelligence)的話題,相信不久就會有各種各樣的和AI有關的年終總結和展望。的確有必要了解一下這個可能顛覆以往的技術。
機器合成語音已經被AI改造的越來越像真人發音,可以感受下應用AI的合成語音說繞口令:
「Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?」
peterpiper.wav
00:05
來自科技簡報
「She sells sea-shells on the sea-shore. The shells she sells are sea-shells I"m sure.」
seashells.wav
00:05
來自科技簡報
以下是真人和合成語音的對比,每組當中,一個是真人錄音,一個是AI合成,你能分辨出來嗎?
1、「That girl did a video about Star Wars lipstick.」
lipstick_gt.wav
00:03
來自科技簡報
lipstick_gen.wav
00:03
來自科技簡報
2、「She earned a doctorate in sociology at Columbia University.」
columbia_gt.wav
00:04
來自科技簡報
columbia_gen.wav
00:04
來自科技簡報
3、「George Washington was the first President of the United States.」
washington_gt.wav
00:04
來自科技簡報
washington_gen.wav
00:03
來自科技簡報
4、「I"m too busy for romance.」
romance_gt.wav
00:02
來自科技簡報
romance_gen.wav
00:02
來自科技簡報
要注意的是,這些語音是被訓練出來的,或者說AI「學」出來的,而不是以往用各種程序條件組合出來的。甚至沒有教給AI任何語法。設計者的目標就是希望這個AI聽的越多,說的越多然後就越來越會發音。
以上的語音來自Google推出Tacotron 2,它結合了DeepMind的WaveNet和前一版Tacotron各自的優點。
採樣點非常多
卷積神經網路
上面兩張圖片是DeepMind的兩張解釋圖,我看不懂。
Tacotron 2的模型架構
上圖是Tacotron 2的模型架構我也看不懂。但是AI合成語音技術真的很強大,因為它可以不斷學習,甚至創造。網站上還有很多AI合成的音樂,歌曲(在中國比如很流行的虛擬歌手洛天依)。
也許2018年開始,我們將分不清機器語音和人的語音,然而這沒結束,人們今後可能會學習一些機器人的語法和說話方式,畢竟它可以掌握多種語言,博古通今,記錄和分析了大量經典演講、詩歌和電影對白。我覺得它會比我初中老師強很多,語文課看來有希望了。
雖然我是AI小白,但希望我能不斷學習AI,以後能分享更多有用有趣的AI相關姿勢(:D)給大家。
TAG:沒看過沒聽過 |