美國海軍利用機器學習提高反艦巡航導彈防禦教學演訓水平

軍情 08-15

風裡雨里，我在這裡等你～

摘要

2019年4月，美國麻省理工學院(MIT)林肯實驗室利用「打擊群守衛」(SGD)訓練系統演示驗證艦艇自防禦智能決策演算法。研究人員利用SGD軟體收集到的

專家決策數據訓練智能決策模型，使其可根據來襲反艦巡航導彈(ASCM)目標自主選擇對抗措施，平均得分為87540±16842，這個分數高於專家平均得分，即74728±26824。

一、SGD軟體研發背景

美軍認為，ASCM的發展對其水面艦艇構成嚴重威脅。美國海軍正在研發、部署多型反ASCM系統，使艦艇具備強大的分層防禦能力，如圖1所示。這些對抗措施可全面應對各種ASCM威脅，但其複雜的使用規則也十分考驗作戰人員，因為反艦導彈和對抗措施的數量和類型很多，並且還需要考慮複雜的時空條件。通常，艦員要在很短的時間內以及信息不完整的條件下，從眾多對抗措施中果斷選擇對抗效果最好的。因此，清晰、準確、詳細的訓練對於日後艦艇官兵應對複雜ASCM場景的十分關鍵。為此，MIT林肯實驗室防空反導技術分部在美國海軍研究署(ONR)一體化防空反導(IAMD)未來海軍能力(FNC)項目資助下，聯合系統設計公司共同開發SGD軟體。圍繞第三艦隊提出的實際訓練需求，結合先進機器學習與人工智慧技術為部隊提供個性化的高效訓練工具。

圖1 多種反ASCM系統

二、軟體設計思路

系統以第三人稱視角，在三維競技場上展開，守方艦艇（藍色）在中心，ASCM威脅（紅色）從地平線遠端襲來。如圖2所示，輔助視角和窗口位於大型中央顯示界面周圍,用戶能輕鬆訪問全部相關信息，其中藍色水面艦艇和紅色導彈威脅在中間，左下是俯視圖，右下是消息提示面板，右側是對抗措施庫存，頂部是菜單和得分。防守完全由操作者控制，包括決策部署、選用對抗措施，甚至還可改變艦艇航速和航向。這種設計主要是為了培養艦員自防禦的意識和素養，而不僅僅是模擬某種顯示方式、相關硬體或某種戰術戰法。

圖2 SGD顯示界面

與顯示界面的設計類似，SGD中ASCM和對抗措施用抽象感念表達，而不是復現真實系統，如圖3所示。紅方ASCM的類型主要由尋的裝置決定，例如，某型導彈使用紅外導引頭探測艦艇發出的熱量。藍方系統的對抗措施抽象成幾類，例如，硬殺傷系統代表艦上全部硬殺傷選項。考慮到某些教學演訓需要更接近真實環境，系統還有一個機密版，可通過更改定義系統的輸入文件直接轉換為更真實的版本。

圖3 SGD提取出多種威脅導彈類型（左）和對抗措施（右）

SGD包含一系列內置場景，從單艦防禦單威脅教程到整個打擊群防禦20枚或更多導彈。同時，SGD還有一個內置的戰役編輯器，可供教員和學員自行構建作戰場景，如圖4所示。艦艇、對抗措施載荷（對抗措施的攜帶量）、ASCM類型、方位和時機均可調整，可幫助操作者從攻防兩個角度探討演練戰術戰法。此外，ASCM出現的時機和方位不僅可以自行設置，還可設置為隨機，增大防禦難度，防止學員靠死記硬背獲得高分。

圖4操作者可在編輯器面板構建作戰場景，選擇ASCM的類型、數量、襲擊艦艇的時機和方位

場景是實時變化的，通常要持續幾分鐘，並有多種系統模式可滿足不同用戶體驗需求：

（一）教程模式

場景簡單，只有一型ASCM，虛擬教官會提示學員在何時何地選用何種對抗措施。

（二）單人防守模式

學員可控制一艘或一組艦船，抵禦不同難度（來襲導彈數量和對抗措施的數量）的ASCM攻擊。

（三）多人防守模式

多個學員利用網路語音工具或系統內的文本信息對話工具，共同抵禦ASCM攻擊，保護水面艦艇。

（四）多人對戰模式

一人控制ASCM（攻方），其他人共同防守。這種設置可以考查學員能否及時洞察敵方戰術戰法，並開展有效防禦。

如圖5所示，除核心功能之外，SGD還具備社交功能，可增加學員之間的交流、競技，共同提高學習效果。每個場景都設有排行榜，最高分會隨時更新，供所有學員參考。佔據排行榜的首位是激勵學員進步的強大動力。同時，創建並分享新的場景挑戰其他學員獲得的成就感也能激發創新，改進提高學員能力。最後,留言板可促進學員之間的交流，在這裡學員可以向其他學員或教官提問，並分享見解。

圖5 為便於操作者進入場景、排行榜和社交媒體，界面採用直觀化設計

儘管SGD功能非常全面，但系統設計從一開始就要求系統負載要最小化。系統必須能在帶寬極低的網頁瀏覽器條件下運行,比如教室的台式機、家裡的筆記本、艦艇上的安全網路。SGD於2014年在林肯實驗室召開的防空反導技術研討會上被推廣。在這三天的研討會期間，共有67人參與完成332場系統模擬。部隊給出的反饋十分積極，堅定了SGD的發展方向，並激發了海軍對研究團隊進一步增強系統的願望。

三、提高教學效果

學員利用SGD學習，系統也可學習他們。系統收集的海量數據有望提高教學指導的有效性，但要從這些數據中提取有意義、有效的信息十分困難。林肯實驗室利用機器學習技術挖掘隱藏在數據背後的關聯，為學員和教官提供相應的指導。

（一）學員類型識別

學員類型識別是因材施教的第一步。林肯實驗室利用無監督學習（即聚類）技術將SGD中包含各項特徵的大量數據點和高維函數簡化為一組可管理的類別，可在得分或等級之外區分學員。

以汽車為例。與SGD的操作者類似，汽車的生產廠家、型號、出廠年份等不盡相同。同樣，定義汽車特徵的參數也很多，如成本、性能、油耗、可靠性、安全性、內部空間等。聚類可將其歸納為一組更高級的汽車類別（如家庭型、商務型、運動型、豪華型等），再定義每個類別的特徵，將數據的複雜性降低到更便於管理和使用的級別。

對於SGD數據集，以下特徵與學員類型最為相關：

（1）逃跑率，在場景結束之前退出系統的次數佔比；

（2）特殊教程，嘗試完成特殊教程的次數；

（3）教程率，嘗試完成教程的次數；

（4）測試率，嘗試完成測試水平的次數；

（5）教測比，嘗試教程水平與測試水平的次數比例；

（6）重複率，重玩同一水平的次數；

（7）暫停時間，暫停系統的平均時長；

（8）教程重複率，嘗試教程水平的平均次數。

林肯實驗室利用k均值聚類演算法識別出四類學員，如圖6所示。第一類學員的得分較高，逃跑率也較高。從表面上看，這種行為是一種不好的表現，但比較重複率可以發現當這類學員對自己的表現不滿意時會退出並重新開始，立即糾正錯誤。其他三類學員的得分相似，但打法不同。第二和第四類學員都均完成了很多教程，但第二類學員的逃跑率較高，而第四類學員大多會使用暫停功能。第三類學員幾乎跳過了所有教程，直接進入演訓練習。

圖6根據8項特徵的聚類得到四類學員

學員類型識別為掌握學員如何對待系統、哪些策略能夠產生更理想的結果提供了窗口。例如，如果第一類學員的表現更為優秀，則可參照其特徵制定相應的課程計劃來培養所有學員。同時，使用這種方法可在系統中快速將學員分開，通過早期干預來鼓勵他們當前的做法或糾正不需要的特徵。快速分開學員可改善SGD用戶的表現，提高訓練效果。對於教育背景不盡相同的教官，學員類型相近可幫助他們制定使用系統的課程計劃。

（二）戰術戰法識別

聚類可將學員分為若干個方便管理的類型，也可將學員在特定場景中使用的戰術戰法分為幾類，幫助教官了解學員是否掌握了這些知識。此外，系統還能從學員那裡學習有趣的非標準戰術戰法。

林肯實驗室利用k中心點聚類演算法，從每日績效評估數據中提取出四類戰術戰法（不一定對應學員類型），如圖7所示。艦艇周圍的圓環代表場景中的時間，最內側表示開始時刻，最外側表示結束時刻，不同顏色代表對抗措施類型以及部署方位。雖然得分相近，但戰術戰法自左向右的越來越好。最正確的戰術戰法被稱為「鐵三角」，先將工作時間較長的對抗措施（如浮標誘餌等）朝三個方向均勻部署在艦艇周圍，使指戰人員集中精力部署消耗型對抗措施，應對其他威脅。中間兩種戰術戰法與其由相似之處，第二種戰法使用了更多的對抗措施，第三種戰法的形狀有些不同。與其他三種相對有序的戰法相比，第一種戰法稍顯雜亂，使用的對抗措施種類和數量較多，效率較低。

圖7 k中心點演算法得到的四類戰術戰法由四組同心圓表示

戰術戰法識別幫助引導指令鼓勵那些已經在使用戰法4的學員，提示使用戰法2和戰法3的學員及時做出調整，教使用戰法1的學員徹底改變戰法。對於更複雜的場景，有可能事先沒有最佳戰法，這項功能可幫助系統從操作者那裡學到最佳戰法。

（三）自適應課程規劃

SGD不斷收集數據，使指導水平能夠滿足每個學員不斷變化的需要。事實上，系統可通過學習操作者如何學習並使用這些信息來提高其教學演訓水平。通過比較低分學員和高分學員的學習方法，確定最佳學習方法，創建一個隨需應變的個性化虛擬教官，可觀察學員的思路是否正確，並在學員誤入歧途時給出強化或糾正提示。

林肯實驗室利用隱馬爾科夫模型創建系統順序列表。分別利用高分學員訓練模型創建一個積極的課程計劃，利用低分學員訓練模型產生糟糕的課程計劃，均可根據學員剛剛通過的等級推薦下一個等級。那些與積極的課程計劃契合的學員會得到鼓勵，而那些不太契合的學員則會被重新引導。表1給出了模型生成的兩個課程規劃。

表1兩組SGD學員的課程規劃

左側給低分學員的課程計劃，在較低級別的教程之間來回嘗試，右側的課程計劃則很快進入困難模式。利用這些知識，系統便能建議學員下一步嘗試哪些等級，並評估其能力水平的提高，引導其朝更積極的方向發展。未來可能會在馬爾科夫模型中引入遞歸，考慮學員在系統中所有經歷的影響，通過收集更多的數據並測量學員表現的變化來量化這種方法的影響。

四、未來發展及影響意義

機器學習技術需要使用大量數據，在SGD進行的研究也不例外。使用這個系統的學員越來越多，可用於分析的數據集會隨之增大，基於它的模型也會變得更好。目前，用於探索機器學習概念的數據主要基於SGD對抗賽數據集。儘管已取得較大進展，但這些數據來自林肯實驗室的員工，而不是專業的海軍官兵。美國海軍研究生院正在推廣這一成果，使SGD為部隊服務。

最近，SGD後端進行了一系列改進，專門設計了一個應用程序介面（API）來滿足外部模型、模擬和決策需要。通過這個API可向學員發送個性化引導提示，控制SGD模擬時間步長。目前，研究人員正在努力縮短模擬運行時間，因為智能決策輔助軟體需要運行許多SGD模擬案例做出決策。除後端開發外，前端系統的開發也取得了較大進展，如圖8所示。首版SGD聚焦戰術戰法演練，新版SGD要求操作者在此環節之前制定行動方案。所有任務都在世界地圖上完成。ISR資源被添加到最新版本中，新的場景要求學員優先避免ASCM威脅。但當有導彈來襲時，場景便會切換到戰術戰法演練環節。

圖8 SGD的最新版本將增加一個戰略層，操作者可在地圖上進行機動，避免反艦巡航導彈威脅

同時，林肯實驗室還在開發一個機密版系統。這個版本更貼近真實場景，設置全新的場景和任務環境，添加最新的武器和感測器模型。在未來版SGD中，學員可配置艦艇的裝載量或「購買」新武器或智能輔助決策能力，這些記錄可用於訓練演算法，幫助艦艇獲得最佳裝備量和配置方法。將這些功能整合後，SGD將從單純聚焦ASCM防禦蛻變為更廣泛的學習和技術開發生態系統，為海軍探索各種問題。

現在關於將機器學習應用於SGD平台的研究為未來的培訓開闢了新途徑。例如，操作者類型識別將幫助海軍挑選優秀學員，並為那些表現不佳的學員指出水平提高的方法。同樣，戰術戰法識別將幫助確定哪些反應是有效的，也可激發並利用學員的創造力。自適應課程規劃為每個學員提供個性化學習體驗，使教學更高效、聚焦。這些概念及其他相關機器學習方法，將提高個性化訓練水平。

（藍海星：張旭）

文章推薦

想了解更多國外國防戰略、軍事工業、裝備發展、前沿技術相關研究，請關注藍海星智庫微信公眾號：SICC_LHX

歡迎轉載，轉載請註明出處。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 藍海星智庫 的精彩文章:

※雙向腦機介面的無偽像記錄方法
※低溫噴霧的全局彩虹折射測量技術

TAG:藍海星智庫 |