減少 GC 開銷的 5 個編碼技巧

知識 05-06

（點擊

上方公眾號

，可快速關注）

來源：ImportNew - 踏雁尋花

在這篇文章中，我們來了解一下讓代碼變得高效的五種技巧，這些技巧可以使我們的垃圾收集器（GC）在分配內存以及釋放內存上面，佔用更少的CPU時間，減少GC的開銷。當內存被回收的時候，GC處理很長時間經常會導致我們的代碼中斷（又叫做」stop the world」）。

背景

GC用來處理大量的短期的對象的分配（試想打開一個web頁面，一旦頁面被載入之後，被分配內存的大部分對象都會被廢棄）。

GC使用一個被稱作」新生代」堆空間來完成這件事情。」新生代」是用來存放新建對象的堆內存。每一個對象都有一個」age」（存儲在對象的頭信息中），用來定義存放很多沒有被回收的垃圾集合。一旦一個確定的」age」到達，對象就會被複制到堆中的另一塊空間，這個空間被稱作」倖存者空間」或者」老年代空間」。（譯者註：實際上倖存者空間位於新生代空間中，原文有誤，不過這裡暫時按照原文來翻譯，更詳細的內容請點擊

成為JavaGC專家Part I — 深入淺出Java垃圾回收機制

）

http://www.importnew.com/1993.html

雖然這樣很有效，但是還是有很大代價的。減少臨時分配的數量確實可以幫助我們增加吞吐量，尤其是在大規模數據的環境下，或者資源有限制的app中。

下面的五種代碼方式可以更加有效的利用內存，並且不需要花費很多的時間，也不會降低代碼可讀性。

1、避免隱式的String字元串

String字元串是我們管理的每一個數據結構中不可分割的一部分。它們在被分配好了之後不可以被修改。比如」+」操作就會分配一個鏈接兩個字元串的新的字元串。更糟糕的是，這裡分配了一個隱式的StringBuilder對象來鏈接兩個String字元串。

例如：

a = a + b; // a and b are Strings

編譯器在背後就會生成這樣的一段兒代碼：

StringBuilder temp = new StringBuilder(a).

temp.append(b);

a = temp.toString(); // 一個新的 String 對象被分配

// 第一個對象「a」現在可以說是垃圾了

它變得更糟糕了。

讓我們來看這個例子：

String result = foo() + arg;

result += boo();

System.out.println(「result = 「 + result);

在這個例子中，背後有三個StringBuilders 對象被分配 – 每一個都是」+」的操作所產生，和兩個額外的String對象，一個持有第二次分配的result，另一個是傳入到print方法的String參數，在看似非常簡單的一段語句中有5個額外的對象。

試想一下在實際的代碼場景中會發生什麼，例如，通過xml或者文件中的文本信息生成一個web頁面的過程。在嵌套循環結構，你將會發現有成百上千的對象被隱式的分配了。儘管VM有處理這些垃圾的機制，但還是有很大代價的 – 代價也許由你的用戶來承擔。

解決方案：

減少垃圾對象的一種方式就是善於使用StringBuilder 來建對象，下面的例子實現了與上面相同的功能，然而僅僅生成了一個StringBuilder 對象，和一個存儲最終result 的String對象。

StringBuilder value = new StringBuilder(「result = 「);

value.append(foo()).append(arg).append(boo());

System.out.println(value);

通過留心String和StringBuilder被隱式分配的可能，可以減少分配的短期的對象的數量，尤其在有大量代碼的位置。

2、計劃好List的容量

像ArrayList這樣的動態集合用來存儲一些長度可變化數據的基本結構。ArrayList和一些其他的集合（如HashMap、TreeMap），底層都是通過使用Object[]數組來實現的。而String（它們自己包裝在char[]數組中），char數組的大小是不變的。那麼問題就出現了，如果它們的大小是不變的，我們怎麼能放item記錄到集合中去呢？答案顯而易見：分配更多的數組。

看下面的例子：

List<Item> items = new ArrayList<Item>();

for (int i = 0; i < len; i++)

{

Item item = readNextItem();

items.add(item);

}

len的值決定了循環結束時items 最終的大小。然而，最初，ArrayList的構造器並不知道這個值的大小，構造器會分配一個默認的Object數組的大小。一旦內部數組溢出，它就會被一個新的、並且足夠大的數組代替，這就使之前分配的數組成為了垃圾。

如果執行數千次的循環，那麼就會進行更多次數的新數組分配操作，以及更多次數的舊數組回收操作。對於在大規模環境下運行的代碼，這些分配和釋放的操作應該儘可能從CPU周期中剔除。

解決方案：

無論什麼時候，儘可能的給List或者Map分配一個初始容量，就像這樣：

List<MyObject> items = new ArrayList<MyObject>(len);

因為List初始化，有足夠的容量，所有這樣可以減少內部數組在運行時不必要的分配和釋放。如果你不知道確定的大小，最好估算一下這個值的平均值，添加一些緩衝，防止意外溢出。

3、使用高效的含有原始類型的集合

當前版本的Java編譯器對於含有基本數據類型的鍵的數組以及Map的支持，是通過「裝箱」來實現的 – 自動裝箱就是將原始數據裝入一個對應的對象中，這個對象可被GC分配和回收。

這個會有一些負面的影響。Java可以通過使用內部數組實現大多數的集合。對於每一條被添加到HashMap中的key/value記錄，都會分配一個存儲key和value的內部對象。當處理map的時候非常可怕，這意味著，每當你放一條記錄到map中的時候，就會有一次額外的分配和釋放操作發生。這很可能導致數量過大，而不得不重新分配新的內部數組。當處理有成百上千條甚至更多記錄的Map時，這些內部分配的操作將會使GC的成本增加。

一種常見的情況就是保存一個原始類型（如id）和一個對象之間的映射。由於Java的HashMap設計只能包含對象類型（而非原始類型），這意味著，每個map的插入操作都可能分配一個額外的對象來存儲原始類型（即裝箱）。

Integer.valueOf 方法緩存在-128 – 127之間的數值，但是對於範圍之外的每一個數值，除了內部的key/value記錄對象之外，一個新的對象也將會分配。這很可能超過了GC對於map三倍的開銷。對於一個C++開發者來說，這真是讓人不安的消息，在C++中，STL 模板可以非常高效地解決這樣的問題。

很幸運，這個問題將會在Java的下一個版本得到解決。到那時，這將會被一些提供基本的樹形結構(Tree)、映射（Map），以及List等Java的基本類型的庫迅速處理。我強力推薦Trove，我已經使用很長時間了，並且它在處理大規模的代碼時真的可以減小GC的開銷。

4、使用數據流（Streams）代替內存緩衝區（in-memory buffers）

在伺服器應用程序中，我們操作的大多數的數據都是以文件或者是來自另一個web伺服器或DB的網路數據流的形式呈現給我們。大多數情況下，傳入的數據都是序列化的形式，在我們使用它們之前需要被反序列化成Java對象。這個過程非常容易產生大量的隱式分配。

最簡單的做法就是通過ByteArrayInputStream,ByteBuffer 把數據讀入內存中，然後再進行反序列化。

這是一個糟糕的舉動，因為完整的數據在構造新的對象的時候，你需要為其分配空間，然後立刻又釋放空間。並且，由於數據的大小你又不知道，你只能猜測 – 當超過初始化容量的時候，不得不分配和釋放byte[]數組來存儲數據。

解決方案非常簡單。像Java自帶的序列化工具以及Google的Protocol Buffers等，它們可以將來自於文件或網路流的數據進行反序列化，而不需要保存到內存中，也不需要分配新的byte數組來容納增長的數據。如果可以的話，你可以將這種方法和載入數據到內存的方法比較一下，相信GC會很感謝你的。

5、List集合

不變性是很美好的，但是在大規模情境下，它就會有嚴重的缺陷。當傳入一個List對象到方法中的情景。

當方法返回一個集合，通常會很明智的在方法中創建一個集合對象（如ArrayList），填充它，並以不變的集合的形式返回。

有些情況下，這並不會得到很好的效果。最明顯的就是，當來自多個方法的集合調用一個final集合。因為不變性，在大規模數據情況下，會分配大量的臨時集合。

這種情況的解決方案將不會返回新的集合，而是通過使用單獨的集合當做參數傳入到那些方法代替組合的集合。

例子1（低效率）：

List<Item> items = new ArrayList<Item>();

for (FileData fileData : fileDatas)

{

// 每一次調用都會創建一個存儲內部臨時數組的臨時的列表

items.addAll(readFileItem(fileData));

}

例子2：

List<Item> items =

new ArrayList<Item>(fileDatas.size() * avgFileDataSize * 1.5);

for (FileData fileData : fileDatas)

{

readFileItem(fileData, items); // 在內部添加記錄

}

在例子2中，當違反不變性規則的時候（這通常應該被遵守），可以節省N個list的分配（以及任何臨時數組的分配）。這將是對你GC的一個大大的優惠。

看完本文有收穫？請轉發分享給更多人

關注「ImportNew」，提升Java技能

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 ImportNew 的精彩文章:

※disruptor 源碼解讀
※Jdk 動態代理異常處理分析，UndeclaredThrowableException

TAG:ImportNew |