為什麼我的聲音聽起來不像「我」呢?
這世界上不止小編一個人有過這樣的疑慮,想必有很多人有過這樣的疑慮:
1、鏡子里的我和照片里的我,感覺長得不一樣。
2、使用錄音設備,不小心點開了自己的語音,感覺聲音變了。
對於照片的差異性,可以從光影角度來講,對於不認同「自己」,是可以找到共鳴的,畢竟你拿著照片,有人會認同你的看法。
但是,對於從聲音設備來講,就沒有那麽多人認同了。
例如:一打電話,別人就知道是你了。可奇怪的是,用打電話的設備錄音,自己卻會「懷疑」自己的真實性。
為什麼自己唱歌會覺得好聽,聲音也過得去。可是,身邊的人都是附耳離去?
人說話時,聲帶的快速顫動不僅帶動顱腔振動,也有喉嚨振動,頸部皮膚、顱骨和口腔的震動,從而形成多處同步振動。
別人聽到的聲音則通過了空氣的震動傳導再進入聽者的耳朵,刺激他們的鼓膜及內耳結構,將模擬波形轉變為電信號,最終傳遞給大腦理解。
這個轉化過程有一定的損耗,「我」的音色也會有所變化,別人的實際聽感類似「迴響」。
因此相對「我」的原聲,別人聽見「我」的聲音變得纖薄幹脆。
其實,除了你自己沒人能夠聽到頭骨傳導的這部分聲音。(可以用雙手捂住耳朵,發音就可感受)
那麼,「我」說話的聲音是不是更接近於別人聽到「我」的聲音?
答案「是」。
但是,別人聽到「我」的聲音還是有些細微的差別。畢竟有時有人會問:「你誰啊?哦,原來是你。。。。。」
那麼你一定好奇了,我的聲音不一樣,機器設備怎麼能識別我的語音呢?
聲音轉換原理
首先,語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次,語音是可以閱讀的,即它的聲學信號可以在不考慮說話人試圖傳達的信息內容的情況下,用數十個具有區別性的、離散的符號來表示;最後,語音交互是一個認知過程,因而需要語言的語法、語義和語用結構支持。
而對於語音識別的預處理,則包括語音信號採樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的雜訊影響等,並涉及到語音識別基元的選取和端點檢測問題。在之後的特徵提取過程,就是用於提取語音中反映本質特徵的聲學參數,如平均能量、平均跨零率、共振峰等。
然後關鍵是訓練階段,即在識別之前通過讓講話者多次重複語音,從原始語音樣本中去除冗餘信息,保留關鍵數據,再按照一定規則對數據加以聚類,形成模式庫。最後是模式匹配,這是整個語音識別系統的核心,它根據一定規則以及專家知識,計算輸入特徵與庫存模式之間的相似度,判斷出輸入語音的語意信息。
換句話說,你的音色其實不會影響機器對你的語音識別能力。別再自欺欺人了,無論設備里的那個傢伙的聲音聽起來多麼不像「你」,事實就是你說的。
更多請關註:meibeiapp


※驚!機器人竟然有這麼多不為人知的技能!
※為什麼你的努力毫無價值?
TAG:知識百科 |