只聽聲、不識人，武漢理工博士開發基於回聲的人類活動識別系統

新聞 07-20

選自SingularityHub

作者：Shelly Fan

機器之心編譯

參與：韓放、一鳴

隨著監控系統在日常生活中的普及，公眾對個人隱私安全的擔憂也日漸增長。近日，來自武漢理工大學的博士 Guo Xinhua 和團隊開發了一個監控系統，僅根據回聲定位原理監測人類活動，而不依賴任何個人信息。作者認為，這一系統可以減少監控攝像頭的使用，並在智能家居監控、火災預防和救援、病人管理等方面得到廣泛應用。

如果一個監控系統不用視頻也可以觀察，不獲取聲音也可以監聽，你會同意被監控嗎？

如果你的本能反應是：「不！」然後突然遲疑，「哈？這可能嗎？」我的反應也和你一樣。在 Applied Physics Letters 的新論文《A single feature for human activity recognition using two-dimensional acoustic array》中，一個中國團隊正致力於通過回聲定位的計算機系統來達到隱私和安全的複雜平衡。通過訓練人工智慧來篩選來自聲學感測器陣列的信號，系統可以逐漸學會只使用超聲波來分析你的動作，不論是站著、坐著還是摔倒。

在武漢理工大學研究作者 Guo Xinhua 博士的研究中，該系統可能比安全攝像頭更適合倡導尊重隱私的人們。因為它依賴於超聲波——蝙蝠用來在黑暗空間中導航的那種——它不會捕捉視頻或音頻。它只會跟蹤你的身體位置，但不是你本身。

只聽聲、不識人，武漢理工博士開發基於回聲的人類活動識別系統

一組聲波發射器和接收器（綠色晶元）用來收集超聲波，教 AI 檢測人體運動。圖片來源：Guo Xinhua。

當該系統進一步小型化時，可以幫助看護人監控獨居老人是否在家中跌倒，或者跟蹤醫院房間內的患者以確保安全。它甚至可以安裝在公共區域的火車、Ubers、圖書館、公園浴室，以防暴力或性騷擾，或者替換掉 AirBnB 家庭中的攝像機，以兼顧保護財產和客人的隱私。

因為系統只檢測身體的運動，所以不需要人臉識別或者任何認證，它只基於記錄。系統甚至不會生成像斑點一樣的身體形狀。這使美國機場相機屏幕看起來更體面（而不是暴露旅客的身體隱私）。它在的確是在監控，但是有一層薄薄的隱私，類似於在網上留下半匿名的評論。

如果你持懷疑態度，我也是。舊金山最近禁止了面部識別技術，紐約很快就會遵循更嚴格的監控規則。但在安全攝像頭成千上萬，隱私不一定是一項基本權利的國家裡，一個回聲定位監控系統可能會更好地安撫那些因為行為被監視和記錄而感覺不舒服的人們。

「保護隱私不受監控攝像頭入侵已成為全球關注的問題。我們希望未來這項技術可以幫助減少相機的使用」Guo 說。

論文地址：https://aip.scitation.org/doi/abs/10.1063/1.5096572

它是如何工作的？

研究小組從蝙蝠和其他使用回聲定位作為主要導航工具的動物身上得到了提示。

要進行回聲定位，主要需要兩種類型的硬體：一種是感測器（如麥克風），用於發射超聲波以從表面反彈，另一種是接收器用於收集反射波。據 Guo 說，之前的嘗試中，他們通常只使用一個麥克風和少量的感測器進行回聲定位。有效，但不高效，像是殘疾的蝙蝠。

作者說，「識別的準確度不太高」，大約為 90%。如果一個系統要像攝像機一樣工作，其精度需要接近完美。

該團隊在三維空間中設置了四個發射器，每個發射器以 40kHz 的頻率發射聲波。這個頻率大約比健康年輕人最高聽力高兩倍。為了捕捉反彈波，他們使用了 256 個聲波陣列，完美地排列在一個 16×16 網格的平面上。發送器和接收器物理設備位於一個類似於晶元的結構上，視覺上類似於圓形的種子點綴在綠色的蓮蓬上。

每次一個志願者站著、坐著、摔倒或走在陣列前面時，接收器都會掃描一排反射聲波。總之，團隊有四個不同身高和體重的人參與實驗，使得系統能夠更好地將特定的數據模式泛化為一種運動，而不是一個特定的人。

最精妙的部分是，為了在計算機中模擬蝙蝠大腦的處理，研究小組使用了一個卷積神經網路（CNN），當前許多計算機視覺系統中都在使用它。研究團隊設計了一種演算法，首先預處理所有的回聲定位數據，以去除感測器目標 40kHz 以外接收到的任何雜訊，上下最多浮動 5kHz。

然後，該演算法對收集到的數據進行分析，找出運動模式。這類似於腦機介面在神經電信號中發現肌肉意向的方式。例如，坐著時反射的聲波模式與站著或摔倒時略有不同。與其他深度神經網路相似，該演算法無法解釋每個身體位置在回聲定位方面的差異，但是聲學指紋已經足夠清晰，使得演算法在 97.5% 的情況下都可以成功地解析四種測試行為。

一般來說，該演算法似乎可以更好地識別靜態活動，如坐和站，而不是運動。作者解釋說，這是意料之中的，因為摔倒和走路引入了人在移動方式上的個體差異，使計算機很難計算出一種通用的聲學模式。

老大哥來了?

Guo 的研究進一步拓展了一個相對較新的領域，即人類活動識別。在領域中，計算機僅根據感測器數據來預測人的運動。這聽起來可能非常「老大哥」，但是任何擁有 Fitbit、Apple Watch 或其他活動追蹤器的人都已經從人類活動識別中獲益了。例如，你的智能手錶使用嵌入式陀螺儀計算你的步數。該領域還包括視頻監控，例如計算機根據圖像或視頻中的像素來確定一個人在做什麼。你有 Kinect 嗎？這個漂亮的盒子使用紅外線、攝像機和深度感測器來識別你在遊戲中的動作。

作者解釋說：「人類活動識別被廣泛應用於許多領域，如智能家居的監控、火災探測和救援、醫院病人管理等。」

隨著感測器變得越來越輕，這項技術的應用範圍會越來越擴大。2017 年，一個中美合作組織發現，僅僅依靠人們周圍的 WiFi 就可以跟蹤他們的運動。這樣的系統仍然太大，不能完全便攜化移動，但硬體小型化在未來幾乎不可避免。

並非所有人都反對加強監控。特別是護理者可能會欣賞這種技術，用於提醒他們注意老年人摔倒，摔倒對年輕人無害但對超過一定年齡的人可能會致命。作者設想了一個完全自動化的系統，在這個系統中，摔倒行為發生時會自動向多個救助方報警，而不必泄露傷者在跌倒前正在做什麼。

但撇開善意不談，Guo 的系統有被濫用的可能。與面部識別形成鮮明對比的是，到目前為止，圍繞在人類活動跟蹤的隱私問題上，相關的討論還很少。據來自紐約數據與社會智庫的技術倫理學家 Jake Metcalf 稱，這種系統可以很容易地重新調整用途，以監聽人們的私人生活，或者與現有技術結合，以進一步增加監測覆蓋範圍。

目前，Guo 的團隊不願介入隱私問題。相反，他的團隊希望進一步調整系統，以適應更複雜的活動和「隨機」的情況，比如可能是一個人在閑逛的場景。

「我們知道，人的活動是複雜的。以摔倒為例，人們可能以各種姿勢摔倒。我們希望收集更多的摔倒行為數據集，以達到更高的準確性」他說。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※這就是波士頓動力第一款商用產品「機器狗」Spot
※當Git和Git-LFS無法解決機器學習復現問題時，是時候祭出DVC了

TAG:機器之心 |