當前位置:
首頁 > 新聞 > 「MIT智能晶元突破」速度提升30%,能耗降低85%

「MIT智能晶元突破」速度提升30%,能耗降低85%

「MIT智能晶元突破」速度提升30%,能耗降低85%

1 新智元編譯

「MIT智能晶元突破」速度提升30%,能耗降低85%

幾十年來,計算機晶元都是通過使用「緩存」來提升效率:小型的、局部的內存條對頻繁使用的數據進行存儲,並且會切斷與晶元外的內存費時較長、能量消耗大的溝通。

當下的晶元一般都有三層甚至四層的緩存,每一層都比上一層容積大,但是速度卻更慢。緩存形狀的大小代表了不同程序的需要之前的妥協,但是,要想讓它們精確地適配到任何的程序,卻是很難的。

「MIT智能晶元突破」速度提升30%,能耗降低85%

分布式、片上 SRAM 庫和 3D-stacked DRAM 緩存的現代多核系統

MIT 計算機科學與人工智慧實驗室的研究者設計了一個系統,能夠在程序運行的同時,對緩存進行重新分配,創造新的「緩存等級」以適應特定程序的需要。

研究人員在具有 36 個內核或處理單元的晶元上對該系統進行了模擬測試。 他們發現,與表現最好的前代系統相比,該系統將處理速度提高了 20% 至 30%,同時將能耗降低了 30% 至 85%。

運行了 4 個應用程序的 Jenga 系統

電氣工程與計算機科學系(EECS)助理教授DanielSanchez 表示:「我們希望利用這些分布式物理內存資源並構建特定於應用程序的層次結構,以最大限度地提高特定應用程序的性能。」Daniel Sanchez 的團隊正是這一新系統的開發者。

「這取決於應用程序中的許多東西。它訪問的數據的大小是多少?它是否具有分級重用,以便獲益於更大的記憶層次結構?或者它是通過數據結構進行掃描,所以我們最好還是擁有一個單一但非常大的level?訪問數據的頻率是怎樣的?如果我們讓數據下到主內存,它的性能會受到多大的損失?這些都需要權衡。「

Daniel Sanchez 及其論文合著者——麻省理工學院EECS 的研究生 Po-AnTsai,以及現在是 CMU 計算機科學助理教授(論文完成時還是麻省理工學院研究生)的Nathan Beckmann,在上周的計算機體系結構國際會議(ISCA) 上介紹了這個被稱為 Jenga 的新系統。

在過去10年左右,計算機晶元處理能力的提高來自於增加了更多的內核。今天大部分台式機的晶元有4 核,但是幾個主要的晶元製造商已經宣布計劃在未來一年內將轉為 6核,在高端伺服器中,16 核處理器也並不罕見。大多數行業觀察家認為內核的數量將繼續攀升。

多核晶元中的每個內核通常都有兩個級別的專用緩存。所有內核共享第三個緩存,實際上是分解成散落在晶元周圍的獨立存儲器。一些新的晶元還包括所謂的DRAM 緩存,其被蝕刻到安裝在第一晶元上端的第二晶元中。

對於一個給定的內核,訪問共享高速緩存的最近的存儲庫比訪問更遠的內核更有效率。與目前的緩存管理系統不同,Jenga區分組成共享緩存的獨立內存庫的物理位置。對於每個內核,Jenga 知道從任何晶元存儲器中獲取信息需要多長時間(即「延遲」的時間)。

Jenga 以Sanchez 團隊一個較早的系統為基礎,該系統稱為Jigsaw,它也能即時快速分配緩存訪問。但是 Jigsaw 沒有構建緩存層次結構,這使得分配問題變得複雜得多。

對於在每個內核上運行的每個任務,Jigsaw 不得不計算一個延遲空間(latency-space)曲線,這表明內核預期緩存會有多大的延遲。然後,它必須聚合所有這些曲線,以找到最小化晶元整體延遲的空間分配。

而Jenga 同時權衡兩層緩存的延遲和空間,這將二維延遲空間曲線轉化為三維surface。幸運的是,這個 surface 相當平滑:它可能會起伏,但通常不會有突然的 spike 和dip。

這意味著 surface 上的採樣點可以很好地代表整個表面的外觀。研究人員開發了一種針對高速緩存分配問題的巧妙採樣演算法,系統地增加了採樣點之間的距離。「這裡的想法是,具有相似容量的緩存(例如100 兆位元組和101 兆位元組)通常具有相似的性能。」Tsai說。「所以幾何增加的序列捕獲了完整的圖景。」

一旦推斷了 surface 的形狀,Jenga 就可以找到最小化延遲的路徑。然後,它提取由第一級高速緩存提供的該路徑的組件,這是一個2-D曲線。在這一點上,它可以再次使用 Jigsaw 的空間分配機器。

在實驗中,研究人員發現,這種方法產生的總體空間分配,平均來說佔據3-Dsurface 完整分析所產生的空間分配的1%以內,這非常耗時。採用捷徑的計算方式使得Jenga 每100毫秒就可以更新其內存分配,以適應程序內存訪問模式的變化。

Jenga 還具有越來越受到歡迎的DRAM 緩存所驅動的 data-placement 過程。因為靠近訪問它們的內核,所以大多數緩存幾乎沒有帶寬限制:它們可以根據內核的需求傳送和接收數據。但是更長距離地發送數據需要更多的能量,並且由於DRAM 高速緩存在晶元外,所以它們具有較低的數據速率。

「MIT智能晶元突破」速度提升30%,能耗降低85%

Jenga 重新配置的示意圖。硬體配置應用程序; 軟體周期性地重新配置虛擬層次結構以最小化總訪問延遲。

如果多個內核正在從同一DRAM高速緩存中檢索數據,則可能會導致瓶頸現象,產生新延遲。因此,在Jenga 提出了一組緩存分配方案之後,內核不會將所有數據簡單地轉存到最近的可用內存中。相反,Jenga 一次打包發送一部分數據,然後評估出對帶寬消耗和延遲的影響。因此,即使在晶元級高速緩存重新分配之間的100 毫秒間隔內,Jenga會調整每個內核內存分配的優先順序。

威斯康星大學麥迪遜分校計算機科學教授 DavidWood 說:「多年來,對於如何正確設計緩存層次結構的研究已經很多了。以前也有一些方案,試圖做一些層次結構的動態創建。 而 Jenga不同,因為它真的使用軟體來嘗試描述工作負載的特徵,然後進行資源的最佳分配。從根本上說,這比以前一直在做的更強大。所以我認為這很有趣。」

編譯來源:http://news.mit.edu/2017/using-chip-memory-more-efficiently-cache-hierarchies-0707

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「讓調參全部自動化」自動機器學習,神經網路自主編程(代碼與訣竅)
「貓咪生成器」DCGAN、WGAN等4種生成對抗網路貓咪圖像對比
斯坦福新深度學習系統 NoScope:視頻對象檢測快1000倍
「北航新型人工突觸」能模擬人類神經系統基本功能的人工突觸誕生

TAG:新智元 |

您可能感興趣

2018新款iPhone將於9月12日發布,速度將提升20%,耗功率降低40%
性能提升高達60%功耗降低30%!華為GPU Turbo不止是「很嚇人」
一季度平均網速超20M 同比提升達到54.9%
新iPhoneX A12晶元將用台積電7nm工藝,速度提升20%、功耗降低40%
A12晶元將採用7nm製造工藝,性能提升20%
高通驍龍700來了,能效提升30%
4900元起!佳能EOS M50微單相機發布:性能大幅提升
華為公布「嚇人技術」:性能提升60%,功耗降30%
蘋果A12晶元將採用台積電7nm工藝 速度提升20%
高通推出驍龍 700,AI 性能較 660 提升兩倍
殲15如果升級4.5版本,國防能力可提升多少倍?
最強全面屏+性能提升70%,Apple這款手機暴降889元
英偉達發布全球最大GPU:性能提升10倍,售價250萬
英偉達發布全球最大GPU:性能提升10倍,售價250萬
高通發布驍龍710,其AI性能比600提升2倍
AMD RX 500顯卡刷新可能會在2019年推出縮小模具提升頻率
高通驍龍845晶元測試 XR性能較上代提升約30%
中國研發新型存儲晶元,性能快了100萬倍,耐用性提升156倍
GTX 1180顯卡 12nm架構 性能提升49%
CH-53K直升機完成了16.3噸有效載荷臨界提升能力測試!