狠狠撸

Java 的垃圾回收之算法

引言

Java 的堆是一个运行时数据区，类的实例(对象)从中分配空间。Java 虚拟机(JVM)的堆中储存着正在运行的应用
程序所建立的所有对象，这些对象通过 new、newarray、anewarray 和 multianewarray 等指令建立，但是它
们不需要程序代码来显式地释放。一般来说，堆的是由垃圾回收来负责的，尽管 JVM 规范并不要求特殊的垃圾回
收技术，甚至根本就不需要垃圾回收，但是由于内存的有限性，JVM 在实现的时候都有一个由垃圾回收所管理的
堆。垃圾回收是一种动态存储管理技术，它自动地释放不再被程序引用的对象，按照特定的垃圾收集算法来实现
资源自动回收的功能。

　　垃圾收集的意义

在 C++中，对象所占的内存在程序结束运行之前一直被占用，在明确释放之前不能分配给其它对象；而在 Java
中，当没有对象引用指向原先分配给某个对象的内存时，该内存便成为垃圾。JVM 的一个系统级线程会自动释放
该内存块。垃圾收集意味着程序不再需要的对象是"无用信息"，这些信息将被丢弃。当一个对象不再被引用的时
候，内存回收它占领的空间，以便空间被后来的新对象使用。事实上，除了释放没用的对象，垃圾收集也可以清
除内存记录碎片。由于创建对象和垃圾收集器释放丢弃对象所占的内存空间，内存会出现碎片。碎片是分配给对
象的内存块之间的空闲内存洞。碎片整理将所占用的堆内存移到堆的一端，JVM 将整理出的内存分配给新的对
象。

垃圾收集能自动释放内存空间，减轻编程的负担。这使 Java 虚拟机具有一些优点。首先，它能使编程效率提高。
在没有垃圾收集机制的时候，可能要花许多时间来解决一个难懂的存储器问题。在用 Java 语言编程的时候，靠垃
圾收集机制可大大缩短时间。其次是它保护程序的完整性，垃圾收集是 Java 语言安全性策略的一个重要部份。

垃圾收集的一个潜在的缺点是它的开销影响程序性能。Java 虚拟机必须追踪运行程序中有用的对象，而且最终释
放没用的对象。这一个过程需要花费处理器的时间。其次垃圾收集算法的不完备性，早先采用的某些垃圾收集算
法就不能保证 100%收集到所有的废弃内存。当然随着垃圾收集算法的不断改进以及软硬件运行效率的不断提
升，这些问题都可以迎刃而解。

垃圾收集的算法分析

Java 语言规范没有明确地说明 JVM 使用哪种垃圾回收算法，但是任何一种垃圾收集算法一般要做 2 件基本的事
情：（1）发现无用信息对象；（2）回收被无用对象占用的内存空间，使该空间可被程序再次使用。

大多数垃圾回收算法使用了根集(root set)这个概念；所谓根集就量正在执行的 Java 程序可以访问的引用变量的
集合(包括局部变量、参数、类变量)，程序可以使用引用变量访问对象的属性和调用对象的方法。垃圾收集首选
需要确定从根开始哪些是可达的和哪些是不可达的，从根集可达的对象都是活动对象，它们不能作为垃圾被回
收，这也包括从根集间接可达的对象。而根集通过任意路径不可达的对象符合垃圾收集的条件，应该被回收。下
面介绍几个常用的算法。

　1、引用计数法(Reference Counting Collector)

引用计数法是唯一没有使用根集的垃圾回收的法，该算法使用引用计数器来区分存活对象和不再使用的对象。一
般来说，堆中的每个对象对应一个引用计数器。当每一次创建一个对象并赋给一个变量时，引用计数器置为 1。当
对象被赋给任意变量时，引用计数器每次加 1 当对象出了作用域后(该对象丢弃不再使用)，引用计数器减 1，一旦
引用计数器为 0，对象就满足了垃圾收集的条件。

基于引用计数器的垃圾收集器运行较快，不会长时间中断程序执行，适宜地必须实时运行的程序。但引用计数器
增加了程序执行的开销，因为每次对象赋给新的变量，计数器加 1，而每次现有对象出了作用域生，计数器减 1。

　　2、tracing 算法(Tracing Collector)

tracing 算法是为了解决引用计数法的问题而提出，它使用了根集的概念。基于 tracing 算法的垃圾收集器从根集
开始扫描，识别出哪些对象可达，哪些对象不可达，并用某种方式标记可达对象，例如对每个可达对象设置一个

或多个位。在扫描识别过程中，基于 tracing 算法的垃圾收集也称为标记和清除(mark-and-sweep)垃圾收集器.

3、compacting 算法(Compacting Collector)

为了解决堆碎片问题，基于 tracing 的垃圾回收吸收了 Compacting 算法的思想，在清除的过程中，算法将所有
的对象移到堆的一端，堆的另一端就变成了一个相邻的空闲内存区，收集器会对它移动的所有对象的所有引用进
行更新，使得这些引用在新的位置能识别原来的对象。在基于 Compacting 算法的收集器的实现中，一般增加句
柄和句柄表。
4、copying 算法(Coping Collector)

该算法的提出是为了克服句柄的开销和解决堆碎片的垃圾回收。它开始时把堆分成一个对象面和多个空闲面，
程序从对象面为对象分配空间，当对象满了，基于 coping 算法的垃圾收集就从根集中扫描活动对象，并将每个
活动对象复制到空闲面(使得活动对象所占的内存之间没有空闲洞)，这样空闲面变成了对象面，原来的对象面变
成了空闲面，程序会在新的对象面中分配内存。

一种典型的基于 coping 算法的垃圾回收是 stop-and-copy 算法，它将堆分成对象面和空闲区域面，在对象面与
空闲区域面的切换过程中，程序暂停执行。

5、generation 算法(Generational Collector)

stop-and-copy 垃圾收集器的一个缺陷是收集器必须复制所有的活动对象，这增加了程序等待时间，这是
coping 算法低效的原因。在程序设计中有这样的规律：多数对象存在的时间比较短，少数的存在时间比较长。因
此，generation 算法将堆分成两个或多个，每个子堆作为对象的一代(generation)。由于多数对象存在的时间
比较短，随着程序丢弃不使用的对象，垃圾收集器将从最年轻的子堆中收集这些对象。在分代式的垃圾收集器运
行后，上次运行存活下来的对象移到下一最高代的子堆中，由于老一代的子堆不会经常被回收，因而节省了时
间。

6、adaptive 算法(Adaptive Collector)

在特定的情况下，一些垃圾收集算法会优于其它算法。基于 Adaptive 算法的垃圾收集器就是监控当前堆的使用情
况，并将选择适当算法的垃圾收集器。
透视 Java 垃圾回收

1、命令行参数透视垃圾收集器的运行

2、使用 System.gc()可以不管 JVM 使用的是哪一种垃圾回收的算法，都可以请求 Java 的垃圾回收。在命令行
中有一个参数-verbosegc 可以查看 Java 使用的堆内存的情况，它的格式如下：

java -verbosegc classfile

可以看个例子：

class TestGC
{
public static void main(String[] args)
{
new TestGC();
System.gc();
System.runFinalization();
}
}

在这个例子中，一个新的对象被创建，由于它没有使用，所以该对象迅速地变为可达，程序编译后，执行命令：
java -verbosegc TestGC 后结果为：

[Full GC 168K->97K(1984K)， 0.0253873 secs]

机器的环境为，Windows 2000 + JDK1.3.1，箭头前后的数据 168K 和 97K 分别表示垃圾收集 GC 前后所有存
活对象使用的内存容量，说明有 168K-97K=71K 的对象容量被回收，括号内的数据 1984K 为堆内存的总容量，
收集所需要的时间是 0.0253873 秒（这个时间在每次执行的时候会有所不同）。

2、finalize 方法透视垃圾收集器的运行

在 JVM 垃圾收集器收集一个对象之前，一般要求程序调用适当的方法释放资源，但在没有明确释放资源的情况
下，Java 提供了缺省机制来终止化该对象心释放资源，这个方法就是 finalize（）。它的原型为：

protected void finalize() throws Throwable

在 finalize()方法返回之后，对象消失，垃圾收集开始执行。原型中的 throws Throwable 表示它可以抛出任何
类型的异常。

之所以要使用 finalize()，是由于有时需要采取与 Java 的普通方法不同的一种方法，通过分配内存来做一些具有
C 风格的事情。这主要可以通过"固有方法"来进行，它是从 Java 里调用非 Java 方法的一种方式。C 和 C++是目
前唯一获得固有方法支持的语言。但由于它们能调用通过其他语言编写的子程序，所以能够有效地调用任何东
西。在非 Java 代码内部，也许能调用 C 的 malloc()系列函数，用它分配存储空间。而且除非调用了 free()，否
则存储空间不会得到释放，从而造成内存"漏洞"的出现。当然，free()是一个 C 和 C++函数，所以我们需要在
finalize()内部的一个固有方法中调用它。也就是说我们不能过多地使用 finalize()，它并不是进行普通清除工作
的理想场所。

在普通的清除工作中，为清除一个对象，那个对象的用户必须在希望进行清除的地点调用一个清除方法。这与 C+
+"破坏器"的概念稍有抵触。在 C++中，所有对象都会破坏（清除）。或者换句话说，所有对象都"应该"破坏。
若将 C++对象创建成一个本地对象，比如在堆栈中创建（在 Java 中是不可能的），那么清除或破坏工作就会
在"结束花括号"所代表的、创建这个对象的作用域的末尾进行。若对象是用 new 创建的（类似于 Java），那么当
程序员调用 C++的 delete 命令时（Java 没有这个命令），就会调用相应的破坏器。若程序员忘记了，那么永远
不会调用破坏器，我们最终得到的将是一个内存"漏洞"，另外还包括对象的其他部分永远不会得到清除。

相反，Java 不允许我们创建本地（局部）对象--无论如何都要使用 new。但在 Java 中，没有"delete"命令来释
放对象，因为垃圾收集器会帮助我们自动释放存储空间。所以如果站在比较简化的立场，我们可以说正是由于存
在垃圾收集机制，所以 Java 没有破坏器。然而，随着以后学习的深入，就会知道垃圾收集器的存在并不能完全消
除对破坏器的需要，或者说不能消除对破坏器代表的那种机制的需要（而且绝对不能直接调用 finalize()，所以应
尽量避免用它）。若希望执行除释放存储空间之外的其他某种形式的清除工作，仍然必须调用 Java 中的一个方
法。它等价于 C++的破坏器，只是没后者方便。

下面这个例子向大家展示了垃圾收集所经历的过程，并对前面的陈述进行了总结。

class Chair {
static boolean gcrun = false;
static boolean f = false;
static int created = 0;
static int finalized = 0;
int i;
Chair() {
i = ++created;
if(created == 47)
System.out.println("Created 47");
}
protected void finalize() {
if(!gcrun) {
gcrun = true;
System.out.println("Beginning to finalize after " + created + " Chairs have been created");

}
if(i == 47) {
System.out.println("Finalizing Chair #47， " +"Setting flag to stop Chair creation");
f = true;
}
finalized++;
if(finalized >= created)
System.out.println("All " + finalized + " finalized");
}
}

public class Garbage {
public static void main(String[] args) {
if(args.length == 0) {
System.err.println("Usage: n" + "java Garbage beforen or:n" + "java Garbage after");
return;
}
while(!Chair.f) {
new Chair();
new String("To take up space");
}
System.out.println("After all Chairs have been created:n" + "total created = " + Chair.created +
"， total finalized = " + Chair.finalized);
if(args[0].equals("before")) {
System.out.println("gc():");
System.gc();
System.out.println("runFinalization():");
System.runFinalization();
}
System.out.println("bye!");
if(args[0].equals("after"))
System.runFinalizersOnExit(true);
}
}

上面这个程序创建了许多 Chair 对象，而且在垃圾收集器开始运行后的某些时候，程序会停止创建 Chair。由于
垃圾收集器可能在任何时间运行，所以我们不能准确知道它在何时启动。因此，程序用一个名为 gcrun 的标记来
指出垃圾收集器是否已经开始运行。利用第二个标记 f，Chair 可告诉 main()它应停止对象的生成。这两个标记
都是在 finalize()内部设置的，它调用于垃圾收集期间。另两个 static 变量--created 以及 finalized--分别用于
跟踪已创建的对象数量以及垃圾收集器已进行完收尾工作的对象数量。最后，每个 Chair 都有它自己的（非
static）int i，所以能跟踪了解它具体的编号是多少。编号为 47 的 Chair 进行完收尾工作后，标记会设为 true，
最终结束 Chair 对象的创建过程。

对于垃圾收集的几点补充

经过上述的说明，可以发现垃圾回收有以下的几个特点：

（1）垃圾收集发生的不可预知性：由于实现了不同的垃圾收集算法和采用了不同的收集机制，所以它有可能是定
时发生，有可能是当出现系统空闲 CPU 资源时发生，也有可能是和原始的垃圾收集一样，等到内存消耗出现极限
时发生，这与垃圾收集器的选择和具体的设置都有关系。

（2）垃圾收集的精确性：主要包括 2 个方面：（a）垃圾收集器能够精确标记活着的对象；（b）垃圾收集器能
够精确地定位对象之间的引用关系。前者是完全地回收所有废弃对象的前提，否则就可能造成内存泄漏。而后者
则是实现归并和复制等算法的必要条件。所有不可达对象都能够可靠地得到回收，所有对象都能够重新分配，允
许对象的复制和对象内存的缩并，这样就有效地防止内存的支离破碎。

（3）现在有许多种不同的垃圾收集器，每种有其算法且其表现各异，既有当垃圾收集开始时就停止应用程序的运
行，又有当垃圾收集开始时也允许应用程序的线程运行，还有在同一时间垃圾收集多线程运行。

（4）垃圾收集的实现和具体的 JVM 以及 JVM 的内存模型有非常紧密的关系。不同的 JVM 可能采用不同的垃圾
收集，而 JVM 的内存模型决定着该 JVM 可以采用哪些类型垃圾收集。现在，HotSpot 系列 JVM 中的内存系统都
采用先进的面向对象的框架设计，这使得该系列 JVM 都可以采用最先进的垃圾收集。

（5）随着技术的发展，现代垃圾收集技术提供许多可选的垃圾收集器，而且在配置每种收集器的时候又可以设置
不同的参数，这就使得根据不同的应用环境获得最优的应用性能成为可能。

　针对以上特点，我们在使用的时候要注意：

（1）不要试图去假定垃圾收集发生的时间，这一切都是未知的。比如，方法中的一个临时对象在方法调用完毕后
就变成了无用对象，这个时候它的内存就可以被释放。

（2）Java 中提供了一些和垃圾收集打交道的类，而且提供了一种强行执行垃圾收集的方法--调用
System.gc()，但这同样是个不确定的方法。Java 中并不保证每次调用该方法就一定能够启动垃圾收集，它只不
过会向 JVM 发出这样一个申请，到底是否真正执行垃圾收集，一切都是个未知数。

（3）挑选适合自己的垃圾收集器。一般来说，如果系统没有特殊和苛刻的性能要求，可以采用 JVM 的缺省选
项。否则可以考虑使用有针对性的垃圾收集器，比如增量收集器就比较适合实时性要求较高的系统之中。系统具
有较高的配置，有比较多的闲置资源，可以考虑使用并行标记/清除收集器。

（4）关键的也是难把握的问题是内存泄漏。良好的编程习惯和严谨的编程态度永远是最重要的，不要让自己的一
个小错误导致内存出现大漏洞。

（5）尽早释放无用对象的引用。大多数程序员在使用临时变量的时候，都是让引用变量在退出活动域(scope)
后，自动设置为 null，暗示垃圾收集器来收集该对象，还必须注意该引用的对象是否被监听，如果有，则要去掉
监听器，然后再赋空值。

　　结束语

一般来说，Java 开发人员可以不重视 JVM 中堆内存的分配和垃圾处理收集，但是，充分理解 Java 的这一特性可
以让我们更有效地利用资源。同时要注意 finalize()方法是 Java 的缺省机制，有时为确保对象资源的明确释放，
可以编写自己的 finalize 方法。

狠狠撸

闯补惫补的垃圾回收之算法

More Related Content

闯补惫补的垃圾回收之算法

狠狠撸

闯补惫补的垃圾回收之算法

More Related Content

闯补惫补的垃圾回收之算法

闯补惫补的垃圾回收之算法

闯补惫补的垃圾回收之算法