一個App賣了4億美元，這家聽聲識曲公司為何得到Apple的青睞？

科技 02-18

作者 | 琥珀

出品 | AI科技大本營（ID:rgznai100）

是否可以將 Shazam 稱為有聽歌識曲功能應用的鼻祖？

2018 年 9 月，蘋果最終以 4 億美金完成對 Shazam 公司的收購，讓不少人為之振奮，在當時對外公布的一份聲明中可以看到，自Shazam應用登陸App Store以來，是其最受歡迎的iOS應用之一。

其實早在蘋果 iPhone 「出道」之前，Shazam 提供的音樂識別服務和技術就已戳中了不少用戶的痛點。例如，當外界播放一首你喜愛的歌曲時，手機應用能識別出該歌曲並調出手機內同樣的歌曲/原唱，完成後在手機上播放出來。

像最早流行的 Gracenote、SoundHound、Track ID、Tunatic，以及如今的第三方音樂 App 如 QQ音樂、網易雲音樂，甚至微信「搖一搖」等也都具備音樂識別的功能。

只不過，據資料顯示，在Shazam 公司 1999 年成立之初，以非常「原始」的方式提供服務的：「用戶聽到歌曲，打一個服務短號碼，讓電話那頭聽到，然後自動掛斷，歌曲信息以簡訊的形式發到用戶手機上。」

如今，無論被收購之後的 Shazam 是因何種戰略地位為蘋果生態提供服務，與其他類似的音樂識別軟體在操作界面、細節功能有哪些不同，Shazam 仍受到大眾的認可。拋開此前與蘋果的關係、服務能力不提，Shazam 在音頻識別上的技術能力得到公認的。

實際上，早在 2003 年 Shazam 聯合創始人之一的 Avery Li-Chun Wang 就發表了一篇論文「An Industrial-Strength Audio Search Algorithm」（《一種工業級音頻搜索演算法》），提出了基於指紋（fringerprint）的音樂搜索演算法，因其檢索準確率較高，得到了不少演算法工程師的關注。

編者註：來自維基百科：聲學指紋（Acoustic fingerprint）是通過特定演算法從音頻信號中提取的一段數字摘要，用於識別聲音樣本或者快速定位音頻資料庫中的相似音頻。

根據論文資料，Shazam 設計了一套非常靈活的音頻搜索引擎。其演算法抗雜訊和擾動能力強，計算複雜度低，同時具有很高的可擴展性。即使外界噪音很強，它也可以迅速通過手機錄製的一小段壓縮音頻從百萬級的曲庫中辨識出正確的歌曲。該演算法運用分析音頻頻譜上的星狀圖來組合時間-頻率信息構造哈希，從而可以將混合在一起的幾首歌都辨識出來。此外，針對不同的應用，即使曲庫非常大，檢索速度也能達到毫秒級。

其核心簡言之是，用戶將某段音頻中的一個片段上傳至 Shazam，Shazam 會首先提取指紋，然後查詢資料庫，最後利用其精準的識別演算法返回歌名。指紋可以看做該音頻的哈希值（Hash），一個帶有時間屬性的數字集合。

2015 年，一位名叫 Christophe 的工程師寫了篇萬字長文，完整分析了Shazam的原理是什麼，並表示，在過去的三年時間裡，他用了大概 200 個小時來理解信號處理的概念，其背後的數學原理，並製作了自己的Shazam原型。他甚至直言：「寫這篇文章是因為此前從沒有找到一篇真正理解 Shazam 的文章」。

那麼，如何更快更好理解 Shazam 背後的演算法奧秘呢？前不久，YouTube上一個專門普及工程知識的頻道Real Engineering上傳了一段 10 分鐘視頻，可幫助人們快速 Get 到相關知識點。

傳送門：https://www.youtube.com/watch?v=kMNSAhsyiDg

相比起人類，計算機對音樂沒有直觀的理解，它只能將歌曲與其資料庫中的其他歌曲進行對比匹配。為此，視頻中Real Engineering重點提及了兩個概念：「星狀圖」和「哈希函數」，並對基於「指紋」的搜索演算法進行了通俗化解釋。

例如，人類大腦可很容易區分鋼琴和吉他的音色，但對計算機來講，就需要一種能夠量化這些特徵以便進行識別的方法，即頻譜圖，一種聲音的視覺顯示。

在視頻中，研究者嘗試用一張三維圖來表示：x 軸代表時間，y 軸代表頻率，z 軸代表振幅/響度（通常用某種顏色表示）。