用深度學習技術，讓你的眼睛可以控制電腦

最新 08-21

本文為 AI 研習社編譯的技術博客，原標題 Use your eyes and Deep Learning to command your computer?—?A.I. Odyssey part. 2，作者為 Julien Despois。

翻譯 | 陶玉龍、老趙校對 | Lamaric 審核 | Lamaric

GIF

你有沒有過這樣的經歷，當你在吃東西的時候，發現自己沒有多餘的手來調節電影的音量，或者調節屏幕的亮度？在本文，我們將看到如何使用最先進的人工智慧技術來解決這個問題，通過眼球運動把相應命令下達到你的計算機。

註：在你閱讀完本文之後，我邀請你繼續閱讀那些後續專為實現細節而寫的帖子（https://medium.com/@juliendespois/a-i-odyssey-part-2-implementation-details-f126f18bd320#.t4gpenon3）。

引言

我們想要實現什麼

這個項目的目標是用我們的眼睛來觸發計算機上的動作。這是一個非常綜合的問題，所以我們首先需要明確我們想要實現的內容。

例如，我們可以檢測眼睛什麼時候朝向特定的角落，然後從那個角度進行工作。然而，這是非常有限的，並不是很靈活，加上它需要我們對角落組合。所以作為替代，我們使用遞歸神經網路來學習識別完整的眼球運動。

數據

我們不想使用外部數據集進行工作，作為替代的，我們自己製作數據集。我們在模型的訓練和預測階段用了相同的數據源以及處理方式,這對於我們這個項目而言具有非常大的益處。

毫無疑問，從我們的眼睛中提取信息的最有效的方法是使用專用的特寫鏡頭。藉助於這樣的硬體，我們可以直接跟蹤瞳孔中心，從而做出各種各樣的令人驚嘆的數據資料。

我不想使用外部相機，所以我決定使用我筆記本電腦破舊的720P攝像頭。

工作流程

在我們直接進入技術討論之前，讓我們回顧一下這個過程的步驟。這裡是我提出的流程：

用攝像頭拍一張照片並找到眼睛。

對圖像進行預處理並提取重要的特徵（你是想說是利用神經網路來實現嗎？）。

保持最後幾幀特徵提取的運行記錄。

基於運行記錄實現眼球動作的預測。

我們將使用管道法處理圖像。

我們將通過本文下述步驟來實現，讓我們開始吧！

獲取眼睛圖片

探測眼睛

直接通過攝像頭，對圖像降採樣並將其轉換為灰度圖像(多顏色通道會產生大量冗餘信息)，這會使得接下來的操作更加快速，有助於模型實時運行。

對於探測，我們將使用 HAAR Cascades（Haar 基於特徵的級聯分類器）（http://docs.opencv.org/trunk/d7/d8b/tutorial_py_face_detection.html），因為它們快捷，通過簡單調整，我們可以得到良好結果，但在直接探測眼睛時會導致許多誤報。為了消除這些影響，我們在圖像中檢測人臉而不是眼睛，然後可以在人臉上找到眼睛。

一旦獲得含有眼睛的邊界框，我們可以從最初的全尺寸攝像頭抓拍中提取圖像，這樣就不會丟失任何信息了。

預處理數據

一旦找到了雙眼，我們就需要為我們的數據集處理它們。要做到這一點，我們可以簡單地將雙眼重塑為固定正方形，24px 大小，並使用直方圖歸一化來消除陰影。

GIF