當前位置:
首頁 > 最新 > 對深度學習系統的數據流攻擊

對深度學習系統的數據流攻擊

5月11-13日,DEF CON China召集全球安全領域研究者、愛好者相聚北京,開啟安全大趴。安全客團隊也為大家帶來最新議題解析!後續還會有持續報道,敬請關注喲~

在本次的DEFCON China上,360智能安全團隊負責人李康博士分享了一個關於深度學習系統數據流攻擊的議題——「Beyond Adversarial Learning-Data Scaling Attacks in Deep Learning Applications」,展示了如何讓人工智慧人臉識別系統將李冰冰的照片誤認為趙本山的攻擊形式。

李康博士的研究團隊所發現的數據流攻擊是通過對輸入數據的維度特性進行改變,可以針對深度學習的數據處理環節進行攻擊,對深度學習圖像識別等應用造成逃逸攻擊以及數據污染攻擊等效果。相比於現有的深度學習系統對抗樣本生成方法,該攻擊方式不依賴於具體的深度學習模型,並在對Caffe、Tensorflow等當前主流深度學習框架有效。

一般而言,深度學習系統主要包括數據採集、數據預處理、深度學習模型以及決策執行四個環節,其中數據預處理的作用是依據模型輸入要求將採集到的原始數據進行格式、大小等屬性的調整。接下來就以基於深度學習在圖像識別的應用為例進行說明。

目前多數圖像識別系統都是基於預先訓練好的網路模型,這就帶來一個很大的限制——輸入層大小固定。在NVIDIA提供的多個無人駕駛模型中,模型的輸入圖片尺寸都被要求為226*66。而NVIDIA提供的推薦攝像頭尺寸範圍是320*240至1928*1208等多種圖片大小,但是200*66並不屬於此範圍內,這就要求在使用模型時必須將原始圖片統一縮放至200*66的標準尺寸。此外經調研發現,不同的深度學習視覺應用模型所要求的輸入尺寸多種多樣,這使得圖片縮放這一數據預處理環節在實際應用中不可或缺。


如前所言,計算機視覺領域的數據預處理主要指Scaling/Resizing操作,即對圖像尺寸進行調整的過程。該過程主要由插值演算法實現,主要包括最近鄰插值、雙線性插值、三次插值等。下圖簡單展示了用最近鄰插值將4*4大小圖片壓縮到2*2大小的過程,其它的演算法會有相對複雜的公式。

可以看到,壓縮的過程中伴隨著有效信息的丟失。不幸的是,在許多深度學習框架所採用的數據預處理環節,並沒有考慮到這些信息丟失可能會帶來的安全威脅。接下來李康博士將展示他們如何利用這些被丟棄掉的有效信息,來對如下的深度學習系統進行數據流攻擊。


數據流維度攻擊,顧名思義,是指對數據尺度變換的過程開展的攻擊。在本例中,通過對輸入圖片插入惡意偽造信息,在深度學習系統對圖片進行縮放後使其對於模型的輸入發生變化,造成人與機器對於同一輸入圖片的「認知代溝」。


以下為針對圖像識別系統的自動化數據流維度攻擊的原理圖。

在此給出自動化攻擊的模型。假設攻擊者給定一張m*n大小的原始圖片srcImg(Sm*n)和一張希望機器預處理之後得到的m』*n』大小的目標圖片targetImg(Tm』*n』)。最終經過自動化Scaling Attack後,在Sm*n上引入變化量△1,生成攻擊樣本attackImg(Am*n),經過機器預處理後輸出圖片為outImg(Dm』*n』),其與目標圖片的差異度為△2。

理想的攻擊效果是人類無法區分原始圖片以及偽造樣本,而機器無法區分目標圖片以及偽造樣本的輸出圖片。因此我們希望變化△1和△2能夠儘可能小。由此可以得出指導我們進行自動化攻擊的數學模型。

通過對該二次優化問題進行求解,最終可以實現自動化的Scaling attack。


該團隊對主流深度模型的圖像變換演算法進行了調研,據此對選取典型的圖像預處理函數進行了攻擊,並在此展示部分攻擊效果。

1.對MNIST手寫識別數據集的攻擊

攻擊輸入:

預處理輸出:

攻擊輸入:

預處理輸出:

2.對人像的掩蓋攻擊

攻擊輸入:

預處理輸出:

攻擊輸入:

預處理輸出:


針對上述攻擊,李康博士向大家介紹了幾種可行的防禦措施。

1.過濾並丟捨棄與深度學習模型輸入大小不匹配的樣本。

該手段可以從根本上消除維度攻擊帶來的危害,但僅僅適用於數據感測器可以受用戶控制和調整的情況,等多的時候該方法無異於「傷敵一千,自損八百」。限定輸入數據大小會極大降低深度學習系統的通用性,破壞深度學習系統在不同硬體平台上的可移植性。

2.使用更加健壯的數據變換演算法

在數據預處理環節開發者應該選用表現更加穩定的數據變化演算法,如雙三次方插值。這類插值演算法在進行數據縮放時會引入更多的樣本點之間的相關性信息,這會增加攻擊模型求解的難度和最終的求解效果。此外,開發人員還可以考慮對於數據變化因子引入隨機化方法,不確定的數據變換方式會導致攻擊者針對的數據變換演算法與實際處理演算法的差異,從而對抗相應的攻擊。

3.對預處理前後的數據變化進行檢測。

第三類方法是對數據預處理產生的結果與原始輸入進行相似度比對。通過對數據分布、樣本點相關性等特徵進行比對,可以檢測數據預處理前後信息的變化情況,從而對數據預處理環節進行可靠性評估。


數據流維度攻擊是對深度學習應用一種新型攻擊方法,主要影響對任意圖片進行識別的深度學習應用程序。 李康團隊的工作旨在提醒公眾和研究人員,在擁抱人工智慧熱潮的同時,需要持續關注深度學習系統中的安全問題。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 安全客資訊平台 的精彩文章:

1.5億 MyFitnessPal 賬戶信息遭泄露

TAG:安全客資訊平台 |