當前位置:
首頁 > 最新 > 模式識別和機器學習、數據挖掘之前的區別與聯繫

模式識別和機器學習、數據挖掘之前的區別與聯繫

模式識別是對錶征事物或現象的各種形式的信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是信息科學和人工智慧的重要組成部分。

英文「Pattern」源於法文「Patron」,本來是指可作為大家典範的理想的人,或用以模仿複製的完美的樣品。

在模式識別學科中「模式」具有更廣泛的意義。

人們在觀察事物或現象的時候,常常要尋找它與其他事物或現象的相同或不同之處,根據一定的目的把並不完全的事物或現象組成一類。字元識別就是一個典型的例子。例如漢字「中」可以有各種寫法,但都屬於同一類別。更為重要的是,即使對於某個「中」的具體寫法從未見過,也能把它分到「中」這一類別。人們在路上行走的時候,也總是不斷的根據周圍的景物,判斷它是否能達到目的地,這實際也是不斷的在作「正確」和「不正確」的分類判斷。

人腦的這種思維能力就構成了「模式」的概念。在以上的例子中,模式是和類別(集合)的概念分不開的,只要認識這個集合的有限數量的事物或現象,就可以識別這個集合中的任意多的事物或現象。

為了強調能從具體的事物或現象中推斷出總體,我們就把個別的事物或現象稱作「模式」,而把總體稱作類別或範疇。也有的學者認為應該把整個的類別稱作模式,這樣的模式是一種抽象化的概念,如「房屋」,「鐵路」,「通俗音樂」等等都是模式,而把具體的對象如人民大會堂稱作「房屋」這類模式中的一個樣本。這種名次上的不同含義是容易從上下文中弄清楚的。

模式還可分成抽象的和具體的兩種形式。前者如意識、思想、議論等,屬於概念識別研究的範疇,是人工智慧的另一研究分支。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、文字、符號、三位物體和景物以及各種可以用物理的、化學的、生物的感測器對對象進行測量的具體模式進行分類和辨識。

模式識別研究主要集中在兩方面,即研究生物體(包括人)是如何感知對象的,屬於認知科學的範疇,以及在給定的任務下,如何用計算機實現模式識別的理論和方法。前者是生理學家、心理學家、生物學家和神經生理學家的研究內容,後者通過數學家、信息學專家和計算機科學工作著近幾十年來的努力,已經取得了系統的研究成果。

早期的計算機模式識別研究著重在模型的建立上。50年代末,F.Rosenblatt提出了一種簡化的模擬人腦進行識別的數學模型-感知機,初步實現了通過給定類別的各個樣本對識別系統進行訓練,使系統在學習完畢後具有對其他未知類別的模式進行正確分類的能力,60年代用統計決策理論求解模式識別問題得到了迅速的發展,70年代前後出版了一系列反映統計模式識別理論和方法的專著。

1962年,R.Narasimahan提出了一種基於基元關係的句法識別方法,傅京孫在這個領域進行了卓有成效的工作,形成了句法模式識別的系統理論。80年代,J.J.Hopfield深刻揭示出人工神經元網路所具有的聯想存儲和計算能力,為模式識別技術提出了一種新的途徑,短短几年在很多方面就取得了顯著成果,從而形成了模式識別的人工神經元網路方法的新的學科方向。

一個計算機模式識別系統基本上事有三部分組成的,即數據採集、數據處理和分類決策或模型匹配。

任何一種模式識別方法都首先要通過各種感測器把被研究對象的各種物理變數轉換為計算機可以接受的數值或符號(串)集合。習慣上,稱這種數值或符號(串)所組成的空間為模式空間。為了從這些數字或符號(串)中抽取出對識別有效的信息,必須對它進行處理,其中包括消除雜訊,排除不相干的信號以及與對象的性質和採用的識別方法密切相關的特徵的計算(如表徵物體的形狀、周長、面積等等)以及必要的變換(如為得到信號功率譜所進行的快速傅里葉變換)等。然後通過特徵選擇和提取或基元選擇形成模式的特徵空間。以後的模式分類或模型匹配就在特徵空間的基礎上進行。系統的輸出或者是對象所屬的類型或者是模型資料庫中與對象最相似的模型編號。

針對不同應用目的,這三部分的內容可以有很大的差別,特別是在數據處理和識別這兩部分,為了提高識別結果的可靠性往往需要加入知識庫(規則)以對可能產生的錯誤進行修正,或通過引入限制條件大大縮小待識別模式在模型庫中的搜索空間,以減少匹配計算量。在某些具體應用中,如機器視覺,除了要給出被識別對象是什麼物體外,還要求出該物體所處的位置和姿態以引導機器人的工作。

模式識別已經在天氣預報、衛星航空圖片解釋、工業產品檢測、字元識別、語音識別、指紋識別、醫學圖像分析等許多方面得到了成功的應用。所有這些應用都是和問題的性質密切不可分的,至今還沒有發展成統一的、有效的可應用於所有的模式識別的理論。

當前的一種普遍看法是不存在對所有的模式識別問題都使用的單一模型和解決識別問題的單一技術,我們現在擁有的是一個工具袋,我們所要做的是結合具體問題把統計的和句法(結構)的識別方法結合起來,把統計模式識別或句法模式識別與人工智慧中的啟發式搜索結合起來,把人工神經元網路與各種以有技術以及人工智慧中的專家系統,不確定方法結合起來,深入掌握各種工具的效能和應用的可能性,互相取長補短,開創模式識別應用的新局面。

對數據挖掘而言,資料庫提供數據管理技術,機器學習和統計學提供數據分析技術。

由於統計學往往醉心於理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習演算法之後才能再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和資料庫則是數據挖掘的兩大支撐技術。從數據分析的角度來看,絕大多數數據挖掘技術都來自機器學習領域,但機器學習研究往往並不把海量數據作為處理對象,因此,數據挖掘要對演算法進行改造,使得演算法性能和空間佔用達到實用的地步。同時,數據挖掘還有自身獨特的內容,即關聯分析。

而模式識別和機器學習的關係是什麼呢,傳統的模式識別的方法一般分為兩種:統計方法和句法方法。句法分析一般是不可學習的,而統計分析則是發展了不少機器學習的方法。也就是說,機器學習同樣是給模式識別提供了數據分析技術。

至於,數據挖掘和模式識別,那麼從其概念上來區分吧,數據挖掘重在發現知識,模式識別重在認識事物。

機器學習的目的是建模隱藏的數據結構,然後做識別、預測、分類等。因此,機器學習是方法,模式識別是目的。

總結一下吧。只要跟決策有關係的都能叫 AI(人工智慧),所以說 PR(模式識別)、DM(數據挖掘)、IR(信息檢索) 屬於 AI 的具 體應用應該沒有問題。 研究的東西則不太一樣, ML(機器學習) 強調自我完善的過程。 Anyway,這些學科都是相通的。

此文內容來自:申請方www.applysquare.com

作者:巫小容


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

谷歌將動用人工智慧和機器學習對YouTube視頻進行嚴格審查

TAG:機器學習 |