當前位置：

首頁 > 新聞 > 深度學習方式會被「計算機視覺」顛覆嗎

深度學習方式會被「計算機視覺」顛覆嗎

新聞 07-26

hi188｜撰文

深度學習可以看作是機器學習研究的細分領域，其主要目的是建立、模擬人腦進行分析學習的神經網路，已到達模擬或實現人類的學習行為。

深度學習自21世紀以來，已經發展了很長一段時間。從最初簡單的智能語音助手，到安防解決方案，再到自動駕駛/無人車等領域，如今應用愈加廣泛。作為一個綜合性的科學學科，深度學習這種極具潛力的技術，分析機構marketsandmarkets，預測今年深度學習市場規模達319億美元，到2023年將達181.6億美元。

不過，想要讓深度學習充分理解並發揮出潛力，他也必須「學習」如何自我學習。

熟悉的朋友可能知道，深度學習的方法又分為：監督學習和無監督學習兩種，不同學習框架下的模型不盡相同。

自我監督的深度學習

深度學習的魅力在於他們擁有夠識別不同種類的模型的能力，例如聲音信息、面部信息、圖像信息，甚至是一段代碼。

實際上，人工智慧程序並不了解這些背後是什麼，他們看到和處理的信息只是些字元串，畢竟這才是他們所擅長的。

深度學習的演算法足夠強大，基於深度學習的計算機視覺應用可以輕鬆的將不同種類的物體區分開，甚至還能夠自動將其分類。

之所以機器能做到這一點，那是因為要對軟體進行「監督」。

目前，這種「監督」方法使用最多的依然是最傳統的「人工標註」方法，這個過程則需要通過人類大量、重複性的手工標註動作，目的就是引導機器去學習，然後把學到的東西應用到類似的場景中，以完成學習的過程。

可是，構建和標記大型數據集是一個重複性高、耗時耗力的程序，而且這個過程中一旦出錯，那麼則會直接影響機器學習的結果，當然隨著大量數據的分析對結果可能影響不大，但準確度要求依然及高。

雖然無監督學習可以自主完成這部分內容，他們的方式是直接在應用環境中收集數據，以此進行分析和推測預期的結果。而且，無監督學習具備不可控性，往往被用於嘗試性探索試驗。而多數的應用場景中，往往使用監督學習的方式。

實際上，研究人員在設計無監督學習或監督學習系統之前，都會按照人類的動作方式來尋找靈感，這也是讓人工智慧「更像人類」的重要設計。

如今，一個由計算機視覺專家組成的國際化團隊已經開發出一種新的學習方法，其旨在通過深度學習軟體學習圖像的視覺特徵，無需進行手動標註。

通過計算機視覺將圖片文字化處理

據青亭了解，該團隊的研究人員來自卡內基梅隆大學、巴塞羅那大學、國際信息技術研究所（印度）的研究員共同合作研發，目前已發表論文。

計算機視覺反哺深度學習模型

該研究團隊構建的這個計算模型中，這些模型使用有關維基百科等網站的圖像文本信息，並將他們與這些圖像視覺特徵相關聯。

研究人員表示，「我們的目標是讓計算機能夠閱讀和理解現實世界中任何類型的圖像信息。」

基於維基百科的深度學習方法，同時基於圖像和文字

接下來的步驟中，研究員們還將使用這個模型進一步優化深度學習演算法，目的就是收集挑選出合適的視覺特徵，然後把圖像中的信息以文字的形式表示出來。

維基百科中指定一樣東西去分析，羚羊a，馬b，然後c食草性動物就很容易誕生出來

該團隊的這個模型與監督學習方法不同的是，他不是對特定的圖像進行標註以達到訓練的目的，而是從圖像提取出文本等非視覺信息作為提示。

維基百科圖像檢索，左側列舉3個詞，整體詞頻為藍色，估計詞頻為紅色，右側是最相關的5幅圖

研究人員在論文中講到，「與現有的監督學習和無監督學習方法相比，我們的方法通過實驗已被證明將在圖像分類、目標物體檢測、多模態檢索方面性能足夠領先。」

實際上，該方法嚴格意義上講並不是「完全無監督學習」，因為它的演算法仍然需要模型去訓練，不過如今來看，深度學習演算法已經在通過互聯網大量的資源提升其無監督學習能力。

我們將繼續致力於文本和視覺信息聯合嵌入，通過互聯網和社交網路中可用的信息，繼續尋找實現語義檢索的新方法。

（END）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 青亭網 的精彩文章:

※以用戶為中心，AI開發構建的四大準則
※6月VR大數據｜Windows MR份額6.3%創新高，VR內容共計3249款

TAG:青亭網 |