MIT提出FPGA加速機器學習推理，提速175倍輕鬆處理EB數據集

新聞 08-25

新智元原創

編輯：鵬飛

【新智元導讀】由麻省理工學院助理教授Philip Harris和核科學實驗室博士後Dylan Rankin等國際科學家團隊測試的新機器學習技術可以在眨眼間發現大型強子對撞機（LHC）海洋中的特定粒子特徵。

MIT助理教授Philip Harris和核科學實驗室博士後Dylan Rankin等國際科學家團隊正在測試一種新的機器學習技術，該技術可以在眨眼間在大型強子對撞機（LHC）浩瀚如海的數據中發現特定粒子特徵。

新系統既複雜又迅速，可以在數據集不斷變大變複雜的情況下，讓我們得以一窺機器學習將在粒子物理學的未來發現中，會發揮怎樣舉足輕重的作用。

論文地址：

https://arxiv.org/pdf/1904.08986.pdf

機器學習成為攻堅利器

大型強子對撞機每秒造成大約4000萬次碰撞。篩選如此大量數據，需要強大的計算機，來識別其中需要科學家去關注的碰撞，無論是暗物質還是希格斯粒子。

現在，費米實驗室（Fermilab），歐洲核子研究中心（CERN），麻省理工學院，華盛頓大學和其他地方的科學家們已經測試了一種新的機器學習系統，與現有方法相比，該系統可將處理速度提高30到175倍！

傳統方法目前每秒只能處理不到一個圖像。相比之下，新的機器學習系統每秒最多可以查看600張圖像。在訓練期間，系統學會挑選出一種特定類型的後碰撞粒子模式。

哈里斯說：「我們所識別的碰撞模式，頂夸克是大型強子對撞機上探測的基本粒子之一。能夠分析儘可能多的數據非常重要，每一條數據都帶有關於粒子如何相互作用的有趣信息。「

等目前的LHC升級完成後，數據將以前所未有的方式湧入；到2026年，17英里的粒子加速器預計將產生20倍於目前的數據，同時圖像也將以比現在更高的解析度拍攝。總而言之，科學家和工程師估計大型強子對撞機所需的計算能力是目前的10倍以上。

哈里斯繼續說道：「未來的挑戰迫在眉睫，隨著計算變得更加準確，以及探測出更加精確的效果，它變得越來越難。」

該項目的研究人員對他們的新系統進行了訓練，以識別頂夸克的圖像，這是最龐大的基本粒子類型，比質子重180倍。

「通過我們提供的機器學習架構，就能夠獲得高質量的科學質量結果，與世界上最好的頂夸克識別演算法相媲美，」哈里斯解釋說。「高速實施核心演算法使我們能夠靈活地在最需要的關鍵時刻增強LHC計算。」

EB級的數據集也能輕鬆處理

憑藉大型數據集和高數據採集速率，高性能和高吞吐量計算資源是實驗粒子物理計劃的基本要素。這些實驗在探測器技術的複雜性和粒子束的強度方面不斷增加。

因此，粒子物理數據集的大小正在增加，就像處理數據的演算法的複雜性一樣。例如，大型強子對撞機（HL-LHC）的高亮度階段，將提供比當前LHC運行多15倍的數據。

HL-LHC將以40 MHz的速率碰撞質子束，碰撞環境中每次碰撞的粒子數將是原來的5倍。

Compact Muon Solenoid（CMS）實驗將針對HL-LHC進行升級，讀取通道的數量將增加10倍。通過一系列在線過濾器，CMS旨在以5 kHz的速率存儲HL-LHC碰撞事件。

這樣的數據速率導致數據集的規模為EB級。未來的中微子實驗，如深層地下中微子實驗（DUNE）和宇宙學實驗、平方公里陣列（SKA），預計將產生百億億位元組的數據集。

大規模粒子物理實驗面臨著高吞吐量計算資源的挑戰。在具有增強的並行化的專用硬體上新的異構計算範例，例如現場可編程門陣列（FPGA），能夠提供具有極大潛在增益的解決方案。

機器學習演算法在粒子物理中用於模擬，重建和分析中，不斷增長的應用，自然地部署在這樣的平台上。

實驗證明，機器學習推理的加速即Web服務，代表了粒子物理實驗的異構計算解決方案，只需要對當前計算模型的最小修改。

作為示例，我們重新訓練ResNet50卷積神經網路，以展示LHC頂級夸克噴射標記的最先進性能，並應用ResNet50模型和中微子事件分類的遷移學習。

使用Microsoft的Project Brainwave來加速ResNet50圖像分類模型，我們使用Brainwave作為雲（邊緣或本地）服務的實驗物理軟體框架實現了60（10）毫秒的平均推斷時間，顯示了一個因素導致模型推斷延遲比傳統CPU推斷提高了30-175倍。

作為粒子物理計算模型的邊緣或雲服務，協處理器加速器可以具有更高的占空比，並且可能更具成本效益。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章: