試聽：機器語音越來越像人的語音

最新 01-29

2017年有太多AI（Artificial Intelligence）的話題，相信不久就會有各種各樣的和AI有關的年終總結和展望。的確有必要了解一下這個可能顛覆以往的技術。

機器合成語音已經被AI改造的越來越像真人發音，可以感受下應用AI的合成語音說繞口令：

「Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?」

peterpiper.wav

00:05

來自科技簡報

「She sells sea-shells on the sea-shore. The shells she sells are sea-shells I"m sure.」

seashells.wav

00:05

來自科技簡報

以下是真人和合成語音的對比，每組當中，一個是真人錄音，一個是AI合成，你能分辨出來嗎？

1、「That girl did a video about Star Wars lipstick.」

lipstick_gt.wav

00:03

來自科技簡報

lipstick_gen.wav

00:03

來自科技簡報

2、「She earned a doctorate in sociology at Columbia University.」

columbia_gt.wav

00:04

來自科技簡報

columbia_gen.wav

00:04

來自科技簡報

3、「George Washington was the first President of the United States.」

washington_gt.wav

00:04

來自科技簡報

washington_gen.wav

00:03

來自科技簡報

4、「I"m too busy for romance.」

romance_gt.wav

00:02

來自科技簡報

romance_gen.wav

00:02

來自科技簡報

要注意的是，這些語音是被訓練出來的，或者說AI「學」出來的，而不是以往用各種程序條件組合出來的。甚至沒有教給AI任何語法。設計者的目標就是希望這個AI聽的越多，說的越多然後就越來越會發音。

以上的語音來自Google推出Tacotron 2，它結合了DeepMind的WaveNet和前一版Tacotron各自的優點。

採樣點非常多

卷積神經網路

上面兩張圖片是DeepMind的兩張解釋圖，我看不懂。

Tacotron 2的模型架構

上圖是Tacotron 2的模型架構我也看不懂。但是AI合成語音技術真的很強大，因為它可以不斷學習，甚至創造。網站上還有很多AI合成的音樂，歌曲（在中國比如很流行的虛擬歌手洛天依）。

也許2018年開始，我們將分不清機器語音和人的語音，然而這沒結束，人們今後可能會學習一些機器人的語法和說話方式，畢竟它可以掌握多種語言，博古通今，記錄和分析了大量經典演講、詩歌和電影對白。我覺得它會比我初中老師強很多，語文課看來有希望了。

雖然我是AI小白，但希望我能不斷學習AI，以後能分享更多有用有趣的AI相關姿勢（:D）給大家。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 沒看過沒聽過 的精彩文章:

※好項目：一種可固定在尿布上的數字感測器可穿戴技術

TAG:沒看過沒聽過 |