谷歌推出基於AI的開源手勢識別演算法，可識別單手21個骨骼點

科技 08-20

8月20日消息，谷歌發布全新的手勢識別技術，該技術集成於開源跨平台框架MediaPipe（可為多種類型的感知數據構建處理流程），特點是採用機器學習技術，支持高準確性手勢和五指追蹤，可根據一幀圖像推斷出單手的21個立體節點。與目前市面上較先進的手勢識別技術相比，谷歌的全新技術不需要依賴台式機來計算，而是在手機上就能進行實時追蹤，並且還能同時追蹤多隻手，可識別遮擋。

據谷歌稱，該手勢識別技術可形成對基礎手語的理解，以及對手勢操控的支持，還可用於AR。而為了訓練識別手勢的機器學習演算法，谷歌採用了一個由3個模型組成的框架，包括：手掌識別模型BlazePalm（用於識別手的整體框架和方向）、Landmark模型（識別立體手部節點）、手勢識別模型（將識別到的節點分類成一系列手勢）。其中BlazePalm可為Landmark模型提供準確建材的手掌圖像，這大大降低了對旋轉、轉化和縮放等數據增強方式的依賴，讓演算法將更多計算能力用在提高預測準確性上。

接下來，我們來一一解釋下每個模型的具體細節。

BlazePalm：這是一個可識別單幀圖像的模型，主要用於識別手掌初始位置，與用於識別面部的BlazeFace模型相似，都對移動端的實時識別進行了優化。BlazePalm可識別多種不同手掌大小，具備較大的縮放範圍（~20倍），還能識別手部遮擋，並且能通過對手臂、軀幹或個人特徵等的識別來準確定位手部，彌補手部對於高對比度紋理特徵的缺失。