當前位置:
首頁 > 最新 > 搞多媒體開發?吳威麒:先拉個書單看看

搞多媒體開發?吳威麒:先拉個書單看看

從2017年4月22日一場LiveVideoStack活動開始,每次活動都會選1-2本技術圖書作為獎品。我們相信閱讀這件事情「從來都不晚,一直都有用。」大多數技術牛人都推薦研究開源項目的源碼,勤看論文,但推薦高質量的多媒體開發領域的技術圖書並沒有達成共識。今年,我們先後推薦了《移動音視頻開發進階指南——基於Android與iOS平台的實踐》和《FFmpeg從入門到精通》(想要得到劉歧大師兄這本書的同學可以關注我們在上海的活動《LiveVideoStack Meet上海:多媒體開發新趨勢》)

本文是對觸寶科技音頻技術專家吳威麒的郵件採訪,他非常詳盡的推薦了多本多媒體開發經典圖書。

策劃 / LiveVideoStack

LiveVideoStack:吳威麒你好,能否簡要介紹下自己,包括目前的主要工作及關注領域?

吳威麒:我是2013年畢業於上海大學通信與信息工程學院,信號與信息處理專業。畢業後從事過一年的音視頻應用層開發,之後主要專註於音頻演算法方面的研究與開發。目前在觸寶科技擔任音頻技術專家,主要負責優化PC端和移動端的通話音質。自己比較感興趣的領域包括語音增強、音樂分析、數字音效、語音合成與識別、VR技術、以及深度學習在音視頻領域的應用。

LiveVideoStack:對於學生或沒有多媒體開發經驗的技術人而言,如何從零開始學習多媒體開發?有哪些學習文檔、圖書、資料推薦?

吳威麒:對於想從事多媒體工程開發的新手,推薦以開源項目FFmpeg為中心,首先學會應用,再熟悉整個架構,最後對自己感興趣的模塊深入到源碼學習,遇到問題會查相關資料,這樣可以快速入門。

對於想從事語音信號處理與音頻演算法開發的同學和新手,一方面吸收開源工程的優秀模塊,但更為重要的是要學習相關理論基礎,在這裡給大家推薦一些書籍:

《Discrete-Time Signal Processing》

這本數字信號處理圖書是最為經典的圖書之一,作者是奧本海姆,他為數字信號處理這門學科的建立和推廣起到了極為重要的作用,因而在信號處理界擁有巨大的聲望。

《Discrete-Time Speech Signal Processing: Principles and Practice》

這本書是數字信號處理在語音領域應用的經典書籍之一,全書以概述的形式闡述了語音信號處理的方方面面:包括語音發音機理,聲道建模,語音編碼、語音增強、語音合成與變換、語音識別、說話人識別等,可以讓大家對語音信號處理領域有個全面的認識。

《Matlab 之語音處理與合成工具箱》,《MATLAB語音信號分析與合成》

這兩本書可以讓大家對語音有個更加直觀的認識,熟悉語音的生成、母音和輔音建模生成、語音的相關特徵以及控制參數重新合成語音。

《Real-Time Digital Signal Processing Fundamentals, Implementations and Applications》

這本書的主要特點是除了理論敘述外,還有與之相關的工程實踐,進一步讓讀者加深理解,同時加強動手能力。

還有一些特定領域的書籍:

語音識別:《Speech Recognition: Theory and C++ Implementation》

數字音效:《Digital Audio Effects》

語音增強:《Specch enchancement theory and practice》

以上的這些都是語音與音頻信號處理的基礎書籍,裡面闡述的都是一些經典方法,如果要做出更好的效果,這些是遠遠不夠的,需要多讀論文,多動手模擬,學會篩選資料,有自己的想法,用工程手段避開技術盲區等,才能以最短的時間做出最優的效果。

最後,希望能給予這塊的研發人員更多一點耐心。因為每個技術細節可能有很多相關的文獻,經常會模擬了很多文章,效果都不理想,即使找對了資料,很有可能忽視了某些細節,很長的一段時間都沒有突破,甚至有些需求通過技術手段目前是無法落地的。

坑很大,研發不易,且行且珍惜。

LiveVideoStack:展望未來,你認為多媒體技術在哪些場景或行業有機會重度使用?

吳威麒:未來比較看好VR和AR音視頻產業的發展,它改變了音樂、影片、遊戲等製作方式,大大提升了人們的感官體驗,豐富了人們的娛樂生活。整個VR產業鏈,包括VR硬體設備製造,VR內容生成製作,以及VR內容平台和分發等,將會大放異彩。除了被動接收內容,通過手勢或者語音或者虛擬按鍵,讓交互變得簡單、立體化,一切變得越來越智能,如果可以的話,完全生活在一個虛擬世界裡,不用出門,就能感受到南極的風光、喜馬拉雅山的壯麗、撒哈拉沙漠的神秘…

另外,比較看好AI產業助力製造業、物聯網改造升級,讓人們控制設備變得更加容易和方便,甚至通過AI大腦控制所有設備,實現更高精度、所有零件實現標準化、完全自動化,將人們從簡單無聊的工作中解脫出來。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 LiveVideoStack 的精彩文章:

打造你的泛娛樂多媒體應用開發核心能力
Facebook 360度音頻編碼與渲染

TAG:LiveVideoStack |