segmentfault.com/a/1190000014395186
工作之余,想总结一下JVM相关知识。
Java运行时数据区
Java虚拟机在执行Java程序的过程中会将其管理的内存划分为若干个不同的数据区域,这些区域有各自的用途、创建和销毁的时间,有些区域随虚拟机进程的启动而存在,有些区域则是依赖用户线程的启动和结束来建立和销毁。
Java虚拟机所管理的内存包括以下几个运行时数据区域,如图:
1、程序计数器:指向当前线程正在执行的字节码指令。线程私有的。
2、虚拟机栈:虚拟机栈是Java执行方法的内存模型。每个方法被执行的时候,都会创建一个栈帧,把栈帧压人栈,当方法正常返回或者抛出未捕获的异常时,栈帧就会出栈。
(1)栈帧:栈帧存储方法的相关信息,包含局部变量数表、返回值、操作数栈、动态链接
返回值:如果有返回值的话,压入调用者栈帧中的操作数栈中,并且把PC的值指向 方法调用指令 后面的一条指令地址。
动态链接:每个栈帧都持有在运行时常量池中该栈帧所属方法的引用,持有这个引用是为了支持方法调用过程中的动态链接。
(2)线程私有
3、本地方法栈:
线程独享。
4、方法区:
用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译后的代码等数据
1.线程共享的
2.运行时常量池:
存放编译期生成的各种字面量和符号引用
5、堆(Heap):
Java对象存储的地方
Java堆是所有线程共享的区域
此内存区域的唯一目的就是存放对象实例,几乎所有对象实例都在这里分配内存。存放new生成的对象和数组
JMM Java内存模型
1、 Java的并发采用“共享内存”模型,线程之间通过读写内存的公共状态进行通讯。多个线程之间是不能通过直接传递数据交互的,它们之间交互只能通过共享变量实现。
2、 主要目的是定义程序中各个变量的访问规则。
3、 Java内存模型规定所有变量都存储在主内存中,每个线程还有自己的工作内存。
不同线程之间无法直接访问对方工作内存的变量,线程间变量值的传递都要通过主内存来完成。
4、Java线程之间的通信由内存模型JMM(Java Memory Model)控制。
线程之间共享变量存储在主内存中
JMM通过控制每个线程的本地内存之间的交互,来为程序员提供内存可见性保证。
5、可见性、有序性:
保证线程的有序执行,这个为有序性。(保证线程安全)
6、内存间交互操作:
unlock(解锁):作用于主内存的变量,把一个处于锁定状态的变量释放出来,释放后的变量才可以被其他线程锁定。
load(载入):作用于工作内存,把read操作读取到工作内存的变量载入到工作内存的变量副本中
assign(赋值):作用于工作内存的变量。把执行引擎接收到的值赋值给工作内存的变量。
write(写入):把store操作的值入到主内存的变量中
6.1、注意:
不允许一个线程丢弃assgin操作
一个新的变量只能在主内存中生成
如果对一个变量进行lock操作,将会清空工作内存中此变量的值,在执行引擎使用这个变量前,需要重新执行load或者assgin操作初始化变量的值。
对一个变量执行unlock操作之前,需要将该变量同步回主内存中
堆的内存划分
Java堆的内存划分如图所示,分别为年轻代、Old Memory(老年代)、Perm(永久代)。其中在Jdk1.8中,永久代被移除,使用MetaSpace代替。
1、新生代:
分为Eden、Survivor From、Survivor To,比例默认为8:1:1
2、老年代:
3、Perm:用来存储类的元数据,也就是方法区。
MetaSpace(元空间):元空间的本质和永久代类似,都是对JVM规范中方法区的实现。不过元空间与永久代之间最大的区别在于:元空间并不在虚拟机中,而是使用本地内存。
4、堆内存的划分在JVM里面的示意图:
GC垃圾回收
一、 判断对象是否要回收的方法:可达性分析法
1、 可达性分析法:
通过一系列“GC Roots”对象作为起点进行搜索,如果在“GC Roots”和一个对象之间没有可达路径,则称该对象是不可达的。不可达对象不一定会成为可回收对象。进入DEAD状态的线程还可以恢复,GC不会回收它的内存。(把一些对象当做root对象,JVM认为root对象是不可回收的,并且root对象引用的对象也是不可回收的)
2、 以下对象会被认为是root对象:
方法区中静态属性引用的对象
本地方法栈中Native方法引用的对象
3、 对象被判定可被回收,需要经历两个阶段:
第二个阶段是当对象没有重写finalize()方法或者finalize()方法已经被调用过,虚拟机认为该对象不可以被救活,因此回收该对象。(finalize()方法在垃圾回收中的作用是,给该对象一次救活的机会)
4、 方法区中的垃圾回收:
1.常量池中一些常量、符号引用没有被引用,则会被清理出常量池
2.无用的类:被判定为无用的类,会被清理出方法区。判定方法如下:
加载该类的ClassLoader被回收
5、 finalize():
可以在该方法里面,指定一些对象在释放前必须执行的操作。
二、 发现虚拟机频繁full GC时应该怎么办:
full GC指的是清理整个堆空间,包括年轻代和永久代
如果是System.gc(),则看下代码哪里调用了这个方法
如果是GC locker,可能是程序依赖的JNI库的原因
三、常见的垃圾回收算法:
1、Mark-Sweep(标记-清除算法):
(1)思想:标记清除算法分为两个阶段,标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象,清除阶段就是清除被标记对象的空间。
(2)优缺点:实现简单,容易产生内存碎片
2、Copying(复制清除算法):
(1)思想:将可用内存划分为大小相等的两块,每次只使用其中的一块。当进行垃圾回收的时候了,把其中存活对象全部复制到另外一块中,然后把已使用的内存空间一次清空掉。
(2)优缺点:不容易产生内存碎片;可用内存空间少;存活对象多的话,效率低下。
3、Mark-Compact(标记-整理算法):
(1)思想:先标记存活对象,然后把存活对象向一边移动,然后清理掉端边界以外的内存。
(2)优缺点:不容易产生内存碎片;内存利用率高;存活对象多并且分散的时候,移动次数多,效率低下
4、分代收集算法:(目前大部分JVM的垃圾收集器所采用的算法)
思想:把堆分成新生代和老年代。(永久代指的是方法区)
由于老年代每次只回收少量的对象,因此采用mark-compact算法。
5、GC使用时对程序的影响?
垃圾回收会影响程序的性能,Java虚拟机必须要追踪运行程序中的有用对象,然后释放没用对象,这个过程消耗处理器时间
6、几种不同的垃圾回收类型:
(1)Minor GC:从年轻代(包括Eden、Survivor区)回收内存。
执行Minor GC操作的时候,不会影响到永久代(Tenured)。从永久代到年轻代的引用,被当成GC Roots,从年轻代到老年代的引用在标记阶段直接被忽略掉。
(2)Major GC:清理整个老年代,当eden区内存不足时触发。
(3)Full GC:清理整个堆空间,包括年轻代和老年代。当老年代内存不足时触发
HotSpot 虚拟机详解
1、 Java对象创建过程:
(1)虚拟机遇到一条new指令时,首先检查这个指令的参数能否在常量池中定位到一个类的符号引用,并检查这个符号引用代表的类是否已经加载、连接和初始化。如果没有,就执行该类的加载过程。(Java知音公众号内回复“面试题聚合”,送你一份面试宝典)
(2)为该对象分配内存。
假设Java堆不是规整的,用过的内存和空闲的内存相互交错,那就没办法进行“指针碰撞”。虚拟机通过维护一个列表,记录哪些内存块是可用的,在分配的时候找出一块足够大的空间分配给对象实例,并更新表上的记录。这种分配方式称为“空闲列表“。
分配对象保证线程安全的做法:虚拟机使用CAS失败重试的方式保证更新操作的原子性。(实际上还有另外一种方案:每个线程在Java堆中预先分配一小块内存,称为本地线程分配缓冲,TLAB。哪个线程要分配内存,就在哪个线程的TLAB上分配,只有TLAB用完并分配新的TLAB时,才进行同步锁定。虚拟机是否使用TLAB,由-XX:+/-UseTLAB参数决定)
(3)虚拟机为分配的内存空间初始化为零值(默认值)
(4)虚拟机对对象进行必要的设置,例如这个对象是哪个类的实例、如何才能找到对象的元数据信息、对象的Hash码、对象的GC分代年龄等信息。这些信息存放在对象的对象头中。
(5) 执行
init
方法,把对象按照程序员的意愿进行初始化。
2、 对象的定位访问的方式(通过引用如何去定位到堆上的具体对象的位置):
(1)句柄:使用句柄的方式,Java堆中将会划分出一块内存作为作为句柄池,引用中存储的就是对象的句柄的地址。而句柄中包含了对象实例数据和对象类型数据的地址。
(2)直接指针:使用直接指针的方式,引用中存储的就是对象的地址。Java堆对象的布局必须必须考虑如何去访问对象类型数据。
(3)两种方式各有优点:
使用直接指针,节省了一次指针定位的时间开销。
3、HotSpot的GC算法实现:
(1)HotSpot怎么快速找到GC Root?
(2)安全点:
程序执行过程中并非所有地方都可以停下来开始GC,只有在到达安全点是才可以暂停。
(3)中断方式:
主动式中断:GC需要中断线程时,不直接对线程操作,仅仅设置一个标志,各个线程执行时主动去轮询这个标志,当发现中断标记为真就自己中断挂起。轮询标记的地方和安全点是重合的。
(4)安全区域:
一段代码片段中,对象的引用关系不会发生变化,在这个区域中任何地方开始GC都是安全的。在线程进入安全区域时,它首先标志自己已经进入安全区域,在这段时间里,当JVM发起GC时,就不用管进入安全区域的线程了。
在线程将要离开安全区域时,它检查系统是否完成了GC过程,如果完成了,它就继续前行。否则,它就必须等待直到收到可以离开安全区域的信号。(Java知音公众号内回复“面试题聚合”,送你一份面试宝典)
4、 GC时为什么要停顿所有Java线程?
5、 CMS收集器:
(1)一种以获取最短回收停顿时间为目标的收集器。
(2)一般用于互联网站或者B/S系统的服务端
(3)基于标记-清除算法的实现,不过更为复杂,整个过程为4个步骤:
并发标记:利用多线程对每个GC Root对象进行tracing搜索,在堆中查找其下所有能关联到的对象。
并发清除:利用多个线程对标记的对象进行清除
(4)由于耗时最长的并发标记和并发清除操作都是用户线程一起工作,所以总体来说,CMS的内存回收工作是和用户线程一起并发执行的。
(5)缺点:
CMS无法处理浮动垃圾。在并发清除阶段,用户程序继续运行,可能产生新的内存垃圾,这一部分垃圾出现在标记过程之后,因此,CMS无法清除。这部分垃圾称为“浮动垃圾“
基于标记-清除算法,容易产生大量内存碎片,导致full GC(full GC进行内存碎片的整理)
6、 对象头部分的内存布局:
HotSpot的对象头分为两部分,第一部分用于存储对象自身的运行时数据,比如哈希码、GC分代年龄等。另外一部分用于指向方法区对象类型数据的指针。
7、 偏向锁:
偏向锁偏向于第一个获取它的线程,如果在接下来的执行过程,没有其他线程获取该锁,则持有偏向锁的线程永远不需要同步。(当一个线程获取偏向锁,它每次进入这个锁相关的同步块,虚拟机不在进行任何同步操作。当有另外一个线程尝试获取这个锁时,偏向模式宣告结束)
JVM优化
1、一般来说,当survivor区不够大或者占用量达到50%,就会把一些对象放到老年区。通过设置合理的eden区,survivor区及使用率,可以将年轻对象保存在年轻代,从而避免full GC,使用-Xmn设置年轻代的大小
2、对于占用内存比较多的大对象,一般会选择在老年代分配内存。如果在年轻代给大对象分配内存,年轻代内存不够了,就要在eden区移动大量对象到老年代,然后这些移动的对象可能很快消亡,因此导致full GC。通过设置参数:
-XX:PetenureSizeThreshold=1000000
,单位为B,标明对象大小超过1M时,在老年代(tenured)分配内存空间。
3、一般情况下,年轻对象放在eden区,当第一次GC后,如果对象还存活,放到survivor区,此后,每GC一次,年龄增加1,当对象的年龄达到阈值,就被放到tenured老年区。这个阈值可以同构
-XX:MaxTenuringThreshold
设置。如果想让对象留在年轻代,可以设置比较大的阈值。
4、设置最小堆和最大堆:-Xmx和-Xms稳定的堆大小堆垃圾回收是有利的,获得一个稳定的堆大小的方法是设置-Xms和-Xmx的值一样,即最大堆和最小堆一样,如果这样子设置,系统在运行时堆大小理论上是恒定的,稳定的堆空间可以减少GC次数,因此,很多服务端都会将这两个参数设置为一样的数值。稳定的堆大小虽然减少GC次数,但是增加每次GC的时间,因为每次GC要把堆的大小维持在一个区间内。
5、一个不稳定的堆并非毫无用处。在系统不需要使用大内存的时候,压缩堆空间,使得GC每次应对一个较小的堆空间,加快单次GC次数。基于这种考虑,JVM提供两个参数,用于压缩和扩展堆空间。
-XX:MaxHeapFreeRatio
参数用于设置堆空间的最大空闲比率。默认值是70, 当堆空间的空闲内存比率大于70,JVM便会压缩堆空间。
6、通过增大吞吐量提高系统性能,可以通过设置并行垃圾回收收集器。
-XX:+UseParallelOldGC
:设置老年代使用并行垃圾回收收集器。
7、尝试使用大的内存分页:使用大的内存分页增加CPU的内存寻址能力,从而系统的性能。
-XX:+LargePageSizeInBytes
设置内存页的大小
8、使用非占用的垃圾收集器。-XX:+UseConcMarkSweepGC老年代使用CMS收集器降低停顿。
9、-XXSurvivorRatio=3,表示年轻代中的分配比率:survivor:eden = 2:3
10、JVM性能调优的工具:
jstack:查看java进程内线程的堆栈信息。
jhat:用于分析jmap生成的堆转存快照(一般不推荐使用,而是使用Ecplise Memory Analyzer)
VisualVM:故障处理工具
类加载机制
一、 概念
类加载器把class文件中的二进制数据读入到内存中,存放在方法区,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构。
类加载的步骤如下:
1、加载:查找并加载类的二进制数据(把class文件里面的信息加载到内存里面)
2、连接:把内存中类的二进制数据合并到虚拟机的运行时环境中
(1)验证:确保被加载的类的正确性。包括:
语义检查:确保类本身符合Java的语法规范
二进制兼容性验证:确保相互引用的类之间是协调一致的。
(2)准备:为类的静态变量分配内存,并将其初始化为默认值
(3)解析:把类中的符号引用转化为直接引用(比如说方法的符号引用,是有方法名和相关描述符组成,在解析阶段,JVM把符号引用替换成一个指针,这个指针就是直接引用,它指向该类的该方法在方法区中的内存位置)
3、初始化:
为类的静态变量赋予正确的初始值。当静态变量的等号右边的值是一个常量表达式时,不会调用static代码块进行初始化。只有等号右边的值是一个运行时运算出来的值,才会调用static初始化。
二、双亲委派模型
1、当一个类加载器收到类加载请求的时候,它首先不会自己去加载这个类的信息,而是把该请求转发给父类加载器,依次向上。
所以所有的类加载请求都会被传递到父类加载器中,只有当父类加载器中无法加载到所需的类,子类加载器才会自己尝试去加载该类。当当前类加载器和所有父类加载器都无法加载该类时,抛出ClassNotFindException异常。
2、意义:
提高系统的安全性。用户自定义的类加载器不可能加载应该由父加载器加载的可靠类。(比如用户定义了一个恶意代码,自定义的类加载器首先让系统加载器去加载,系统加载器检查该代码不符合规范,于是就不继续加载了)
3、定义类加载器:如果某个类加载器能够加载一个类,那么这个类加载器就叫做定义类加载器
4、初始类加载器:定义类加载器及其所有子加载器都称作初始类加载器。
5、运行时包:
只有属于同一个运行时包的类,才能访问包可见(default)的类和类成员。作用是 限制用户自定义的类冒充核心类库的类去访问核心类库的包可见成员。
6、加载两份相同的class对象的情况:A和B不属于父子类加载器关系,并且各自都加载了同一个类。
三、特点:
1、全盘负责:当一个类加载器加载一个类时,该类所依赖的其他类也会被这个类加载器加载到内存中。
2、缓存机制:所有的Class对象都会被缓存,当程序需要使用某个Class时,类加载器先从缓存中查找,找不到,才从class文件中读取数据,转化成Class对象,存入缓存中。
三、 类加载器:
两种类型的类加载器:
1、 JVM自带的类加载器(3种):
(1)根类加载器(Bootstrap):
负责加载虚拟机的核心库,比如java.lang.Object
(2)扩展类加载器(Extension):
父加载器是根类加载器
如果用户把创建的jar文件放到指定目录中,也会被扩展加载器加载。
(3)系统加载器(System)或者应用加载器(App):
父加载器是扩展类加载器
是用户自定义类加载的默认父加载器
2、用户自定义的类加载器:
用户可以定制类的加载方式
编写步骤:
A、继承ClassLoader
B、重写findClass方法。从特定位置加载class文件,得到字节数组,然后利用defineClass把字节数组转化为Class对象
(5)为什么要自定义类加载器?
加密:Java代码可以被轻易的反编译,因此,如果需要对代码进行加密,那么加密以后的代码,就不能使用Java自带的ClassLoader来加载这个类了,需要自定义ClassLoader,对这个类进行解密,然后加载。
问题:Java程序对类的执行有几种方式:
1、 主动使用(6种情况):
JVM必须在每个类“首次 主动使用”的时候,才会初始化这些类。
读写某个类或者接口的静态变量
同过反射的API(Class.forName())获取类
JVM启动的时候,被标明启动类的类(包含Main方法的类)
只有当程序使用的静态变量或者静态方法确实在该类中定义时,该可以认为是对该类或者接口的主动使用。
2、 被动使用:
除了主动使用的6种情况,其他情况都是被动使用,都不会导致类的初始化。
3、 JVM规范允许类加载器在预料某个类将要被使用的时候,就预先加载它。如果该class文件缺失或者存在错误,则在程序“首次 主动使用”的时候,才报告这个错误。(Linkage Error错误)。如果这个类一直没有被程序“主动使用”,就不会报错。
类加载机制与接口:
在初始化一个接口时,不会初始化这个接口父接口。
ClassLoader:
类的卸载:
由用户自定义类加载器加载的类,是可以被卸载的。
补充:
JDK和JRK
JRE :Java Runtime Environment,Java运行的基础,包含运行时需要的所有类库。
图解java文件转化成机器码
JVM虚拟机先将java文件编译成class文件(字节码文件),然后再将class文件转换成所有操作系统都能运行的机器指令。
END
Java面试题专栏
欢迎长按下图关注公众号后端技术精选
原文始发于微信公众号(后端技术精选):JVM 史上最最最完整深入解析(12000 字总结)