從臉部識別到火星機器人，正在改變世界的計算機視覺

科技 08-23

計算機視覺是一門跨領域的計算機科學，它從真實的世界中獲取數據並予以分析，來生成數字或符號信息。計算機視覺的未來不僅在於提高機器學習演算法，還在於讓人們將這些靈巧的技術用於研究和改善，當然還有娛樂！

計算機視覺是一門跨領域的計算機科學，它從真實的世界中獲取數據並予以分析，來生成數字或符號信息。通過這種方式計算機可嘗試處理高維數據，這種方式正是人類視覺感知圖像、面孔和類似數據的方式。因此，為了完成上述任務，這門學科大部分由不同模型組成，而且通常需藉助於機器學習的研究成果，從數學（特別是幾何）、物理、統計、認知科學和神經科學中獲取輸入參數。自從科學家試圖通過模擬人類大腦來創建計算機的視覺或感知能力，神經科學變成為了不同的技術、演算法和模型獲取靈感的源泉。

計算機視覺有很多分支學科，比如面部/頭部追蹤和監測、物體識別和姿態估計、圖像追蹤、場景重構、機器學習、動作捕獲與估測、圖像識別與修復，等等。事實上，我們可將人工智慧視為其母學科，因為它利用機器學習和計算機視覺來獲取對環境的深層理解。有時候也會有一些哲學問題，因為它可能會被問到計算機是否真的能夠看見或意識到發生了什麼。

例如，著名的塞爾思維試驗——中國房間，該實驗描述了一個完全接收計算機指令的人，比如「當你看到這個中國符號時，輸出這個英文單詞」。我們能說這個人懂中文嗎？當然不能。即使對於一個外部觀測者來說似乎這個人是懂中文的，但大部分人都會予以否認。類似問題也被用於人工智慧觀測：如果計算機只是遵循指令，我們能認為它有感知嗎？好奇者號、火星漫遊者、新視野號，這些太空飛船真的能看見周邊環境還是它們僅是遵循人為指令？當深思（Deep Thought）在下象棋時，它真的在深思嗎？這些硬人工智慧的問題就好像：大部分科學家相信像人一樣完整的理解我們周邊的世界對於計算機來說是不可能的，因為總有一些缺失的環節，無法真正理解發生了什麼。

神經科學的進展，尤其是在神經生物學上，給計算機視覺提供了非常重要的數據，因為大部分模型和方法都依賴於對人類視覺的研究。圖像感測器檢測電磁輻射，是利用了基於對量子物理研究的技術。主體用來追蹤並研究光線，而想要完整的理解這一點如果沒有現代物理是不可能的，因此光和粒子通常是研究的重點。由於愛因斯坦的相對論理論，我們發現速度是有限制的，最大也只能達到光速。著名的愛因斯坦方程告訴我們質量乘以速度的平方就等於能量，不管質量多少，物理上都等同於能量。這就是恆星從其核心發生氫聚變，形成氦時製造能量的方式，因此它們的某部分質量變成了能量。

另一方面，量子物理給我們講了一個亞原子級別的故事，基本和非基本粒子的行為並不像看上去那樣可以預測。量子物理的重大發現告訴我們，我們可以用概率和統計來描述粒子狀態，而世界並不像我們想的那麼精準。這也是愛因斯坦直到去世都反對量子力學的原因，因為他相信物理應該能由精確的規律支配，我們能夠完整的理解世界，並且不用概率來描述世界。因此，現今的計算機視覺利用的圖像感測器採用了量子物理進行設計，而光線與不同表面的相互反應這一過程也有這樣的量子物理予以解釋。注意！愛因斯坦因光電效應獲得了1921年的諾貝爾獎，而這一效應描述的正是光線如何與不同表面發生反應，比如說，當你用光線照射金屬時，金屬會釋放出電子。

從臉部識別到火星機器人，正在改變世界的計算機視覺

神經科學和計算機視覺也在信號處理（不同物理和抽象系統之間處理信息傳輸的理論和應用）中有所體現。數學和統計方法用於規範、呈現並分析不同的輸入與輸出，在語音、語言、圖像和視頻處理方面尤其重要。

人工神經網路傾向於模擬人類的神經系統和大腦功能，它的知識來源於物理、生物和神經科學。這些模型都是學習模型，它們受到生物，尤其是人類生物和神經網路的靈感激發。其主要目的就是評估在有大量輸入的情況下，執行某種任務的功能。這些神經網路傾向於模擬真實的神經網路，並被設計成互聯的「神經元」系統，彼此之間能夠交流。人類的神經通道就是一系列互聯的神經元。神經元本身由軸突和樹突構成，軸突是傳導電脈衝的神經末梢終端；樹突是類似樹形的結構，將從其他神經細胞接收到的電化學刺激傳遞給其他細胞體。人工神經網路就模擬這種相互反應和信息傳遞。比如，如果有神經網路試圖檢測圖像中的數字和字母（與CAPTCHA所做的類似），一組輸入神經元會被不同像素激活，有一個主功能來判斷哪些是相關的，結果會被傳遞給其他神經元，並試圖將這些字母和數字和已存的信息聯繫起來。當激活輸出神經元，向終端用戶輸出匹配結果，這一過程便完成了。

從臉部識別到火星機器人，正在改變世界的計算機視覺

機器學習有兩種主要的學習類型。一種是監督式學習，處理有標記的數據。例如，包含不同圖像的數據組，每個數據都有注釋和描述。另一種則是非監督式學習，處理沒有標記的數據，計算機必須找到區分不同數據子集、集群或相似圖像的方法。機器學習的過程中，神經網路和類似機器學習演算法使用訓練集和測試集。計算機在一個數據子集中經過「訓練」，而後基於先前加工的數據利用其餘的數據檢驗學習是否有效。這種方法與通過改變參數在不同測試中檢驗學生們的學習成果的概念相同，與教師或者教授在方程式里使用不同的數字，計算機被輸入新圖像或者新數據，它要在基於先前學習有注釋的數據的基礎上，得出正確的結論、近似值或者估計的過程也一樣。因此它必須推導出一個特定函數，將其應用於其他數據中，產生新的實例。

再者，非監督式學習試圖在無標記的數據中找出隱藏的結構，這主要應用於集群、各種統計分布。沒有信號或比較能讓電腦來標記數據，它主要用於模式識別和回歸分析（一種估算不同變數之間關係的統計方法）。監督式學習類似於學習過程中有老師指導糾正，而非監督式學習則類似於自學過程，沒有特定的連續反饋。

在計算機圖形中你可以看到，它從三維模型中產生圖形數據，而計算機視覺則是傾向於從圖形數據中產生三維模型。計算機科學的其他領域也與計算機視覺有關，特別在圖像處理和分析的領域。但是，在虛擬/增強現實以及模擬之間有很大的重疊，因為面部檢測/識別/追蹤技術也經常用於動畫電影行業。運動捕捉和頭部/面部追蹤為動畫家提供輸入以便其能創造出現實運動和面部表情。面部追蹤和識別也經常被用於社交媒體，在各種圖像或者視頻中識別和標記特殊人物。如今，從多媒體獲得的大量跟蹤和識別數據能夠處理情感監測、性別和種族方面的微妙差異，在捕捉微表情和宏觀運動的設計方面更加準確。計算機視覺技術也用於圖像恢復，同時在人文藝術方面也有用，因為它可以追蹤人眼看不到的痕迹和技術，來識別畫作的真偽。

因此，主要的方法便是利用上述圖形感測元件、雷達、相機以及類似設備進行圖像採集，而後進行預處理以便數據收集儘可能無噪音和準確。然後這些圖像經過檢測、分析、分類來看圖像中哪些點和部分與任務相關。例如，如果計算機被訓練來查找人臉，它就集中於被測數據的人臉識別，不關心背景環境或者其他物體。最終的要點是處理和決策，基於計算機是否找到匹配的臉而得出最終的分析和確定的輸出。

機器視覺是一個與機器人學領域有重疊的計算機視覺的重要研究分支。在這個領域的研究中，計算機視覺的相關技術被用來引導機器人執行動作，並且追蹤它們。（科學家們讓）機器人全身上下裝滿了圖像感測器、攝像頭和各種其他感測器，使它們可以從周圍環境中獲取數據並且執行（科學家們）想要的任務。機器人的活動建立在邊緣探測和物體識別的基礎之上，因此它們可以在環境中避開各種障礙順利活動。各類機器學習演算法則可以幫助機器人識別需要得到的圖案並且收集想要的數據，例如不同的航天器需要經過訓練來收集需要的材料，並且做到去粗取精。

從臉部識別到火星機器人，正在改變世界的計算機視覺

比如，火星科學實驗室是NASA在2011啟動的一項太空探測任務，它在2012年成功地讓好奇者號在火星的蓋爾隕石坑著陸。好奇者號的目標是探索火星的氣候和地理，同時對周圍環境進行拍照，世界上最具價值的自拍照也在其中。而其中有名的例子是羅塞塔號，由歐洲太空署發射之後，它和它的著陸器模塊菲萊對彗星進行了細緻的研究。它執行了第一次成功的彗星著陸，同時也飛過了火星。計算機視覺技術對於這些使命來說至關重要，這既是為了獲取來源於圖像中的數據，也是為了在崎嶇不平的地方進行更加有效的移動。最近的一個例子是一個被稱為新視野號的星際空間探測器，它由NASA在2006年發射，並且在今年七月抵達了冥王星。

來自約翰霍普金斯大學以及西南研究所的研究者們與NASA共同合作完成。我們的計算機視覺自2006年至今發展迅猛，它由不同的儀器和模塊構成，並且運作良好，能夠給我們傳回詳細數據。比如，新視野號擁有遠程考察呈像器，它是設計在可見波長內擁有高解析度和反應效率的設備，而同時這裡還有愛麗絲，一台紫外線呈像光譜儀，它能夠在紫外線波長中解析1024個波段從而來確定冥王星的大氣組成。新視野號包含著計算機視覺技術以及刻畫冥王星以及冥衛一地理形態的物理模型，從而可以繪製冥王星、冥衛一、或是其他柯伊伯帶天體的表面構成，並且識別新的天體。

如今，計算機視覺是現代醫學最重要的一部分，因為我們利用計算模型來檢測其他情況下不可見的疾病或區域。機器人手術在實際中運用的優勢在於沒有諸如不精確或耗損等不必要的人為因素，因而現在像腹腔鏡檢查這樣的複雜技術往往由機器人輔助。（計算機視覺）在其他領域的應用包括檢測腫瘤及類似的惡性病變，不過最重要的運用還是在神經科學本身，利用各種X射線，超聲波以及類似的圖像生成人體部分（這些人體部分通常情況下難以探測到）三維的、而且往往是放大的模型，以此可以了解更多關於大腦構造的知識。

現如今，很不幸的是大多數應用實際上是軍事應用，用以追蹤敵方士兵、導彈和武器，用計算機視覺技術來實現精確瞄準和導彈制導，這是唯一一個我們不希望計算機視覺有進展的領域。不過，除非機器人自我覺醒並意識到我們有多麼惡劣。類似的應用包括各種自動汽車和無人機，無人機也被用于軍事目的，不過現在正被努力重新定位，像亞馬遜那樣用於投遞包裹，但人們通常還是不太喜歡無人機能找到自家後院來。

娛樂的進步也一樣得益於計算機視覺，動畫片正變得日益逼真。動畫師和製作者基於人和動物的動作表情，利用現實的人臉、頭部和動作追蹤來表現逼真的動畫人物形象。同這些例子相似，特效部門利用這些模型，以人或動物為基礎創作奇幻生物，IT公司則創造出虛擬現實小工具，電子遊戲和其他增強現實的產品。有些時候這些應用是為了使用戶生活更加方便，比如虛擬試穿，像是試妝或試眼鏡；有些時候則是為了在觀察世界時展現一些附加信息（終結者和鐵血戰士當中的那些），有些時候它們只是用來娛樂，創造出適於娛樂的虛擬環境。

最新進展包括知識圖表、機器人基地和資料集，比如Robp Brain就是一個在線信息圖書館，計算機視覺科學家們可以使用它來讓他們的機器人理解它們所看到的周邊世界。這可能就是天網的雛形，所以我們此刻仍需非常謹慎。

從臉部識別到火星機器人，正在改變世界的計算機視覺

然而，現在最重要的前沿是所謂的深度學習，使用複雜的結構來給高層次的抽象事物建模是它關注的焦點，大多數深度學習嘗試做出更好的展示，並從很多沒有標籤的數據中學習。深度學習有先進的計算機視覺、語音和圖像識別技術，而所謂的卷積神經網路（單個神經元堆疊在一起，在可見區域內就像是重疊的，它的靈感來自於現實生活中的生物系統）表現地最為優異。最近一個令人驚異的例子就是谷歌的深度夢境DeepDream，它使用卷積神經網路來發現和增強圖像中不同的形態，通過有意的過度處理產生夢境一樣的幻覺圖片。

現今，有各種各樣像Knoxwell 這樣的應用，可以讓成千上萬的用戶進行扶手椅考古和分析古希臘陶器上的面部和圖案。這樣的例子說明計算機視覺的未來不僅在於提高機器學習演算法，還在於讓人們將這些靈巧的技術用於研究和改善，當然還有娛樂。未來會怎樣，讓我們拭目以待吧！

如文章涉及版權，請聯繫我們刪除。歡迎來稿、歡迎廣大科幻愛好者和專家學者來稿

掃一掃關注科幻：

請您繼續閱讀更多來自科幻的精彩文章:

《為什麼人類智商高》

宇宙的高清圖片分享

我國"墨子號"量子衛星的「星路歷程」

五部科幻片曝光最新動態、大家最期待哪一部？

反物質戀人

TAG:科幻 |

您可能感興趣

※機器人的崛起：改變世界並不遙遠？
※現在的機器人，未來還有你的位置嗎？改變生活的機械設計
※量子計算機將如何改變世界？
※機器的崛起如何改變了人類的時間觀
※這些獲獎的動人瞬間，正在改變你對手機攝影的偏見
※人不可能真正改變世界，但人可以改變對世界的感覺
※機器人參與執刀，這是一場可能改變世界的眼科手術
※以色列驚爆機器人司機或將改變未來出行
※看完以後暗爽不已的機械運動，科技改變世界
※高端玩物改變不了世界，而是把機會留給戴它的人！
※手機，它改變了我們與這個世界互動的方式，攝影尤是如此
※你無法阻止，黑客帝國終將來臨！計算機演算法，在悄悄改變社會
※就算不能改變世界，也不要被世界改變
※改變世界觀的超神設計，這是從未來世界偷運過來的吧
※七代火影裝束的改變，有些人變化令人想不到
※越來越聰明的工業機器人，正在怎樣改變我們的生活？
※世界從未改變，改變的只是我們面對世界的方向
※配有屏幕的智能音箱，這就是蘋果改變世界的工藝嗎？
※恐怖襲擊，改變了我們的世界