JVM字符串常量池StringTable

目录


一、StringTable为什么要调整

jdk7之前,hotspot对于方法区的实现是永久代,常量池包括字符串常量池放于永久代中;

jdk7时,hotspot将字符串常量池(还有静态变量)放在了堆中。有一点“去永久代”的苗头

jdk8之后,hotspot取出永久代,取而代之的是使用本地内存的元空间。字符串常量池还是在堆中。

为什么要将字符串常量池StringTable放在堆中?

jdk7中将StringTable放到了堆空间中,因为永久代的回收效率很低。在fullGC的时候才触发,而fullGC是老年代空间不足,永久代不足时才触发,触发次数较少,甚至在开发中我们要避免出现fullGC。这就导致了StringTable回收效率不高,而我们开发中会创建大量的字符串,回收效率低,导致永久代内存不足。放到堆里,能及时回收内存。

二、String的基本特性

jdk8及以前,内部定义了final char[] value用于存储字符串数据

JDK9时改为byte[] + 字符类型标记,为什么做出这个改变呢?

char数组一个char占16bits(两个字节),String是堆空间的主要部分,大部分是latin-1字符,一个字节就够了,这样会有一半空间浪费。所以采用byte数组+字符串类型,如果是中文等UTF-16 的用两个字节存储。

StringBuffer,StringBuilder同样做了修改

String为什么不可变?

因为底层数组被final修饰。而且其类自身也被final修饰,这就导致了不能通过继承去修改其内部结构。保证了其不可变性。

  • 当字符串重新赋值,需要重写指定内存区域赋值,不能使用原有的value进行赋值
  • 当对现有的字符串进行连接操作时,也需要重新指定内存区域赋值,不能对使用原有的value进行赋值
  • 当调用String的replace方法修改指定字符或字符串时,也需要重新指定内存区域赋值,不能使用原有的value进行赋值。

字符串常量池中不会存储相同的字符串的

String的String pool是一个固定大小的HashTable,默认大小长度是1009,如果放进String Pool的String非常多,就会造成Hash冲突严重,从而导致链表会很长,而链表长了,直接影响就是调用String.intern时性能会大幅下降

  • -XX:StringTableSize可设置StringTable的大小
  • JDK6固定1009,jdk7中StringTable默认的长度是60013,JDK8时默认是60013,1009是可设置的最小值

三、String的内存分配

Java语言中有8种基本数据类型和一种比较特殊的类型String,这些类型为了使他们再运行过程中速度更快,更节省内存,都提供了一种常量池的概念

String的常量池比较特殊,主要使用方法有两种

  • 直接使用双引号,声明出来的String对象会直接存储在常量池中
  • 如果不是双引号声明的String对象,可以使用String提供的intern()方法

jdk6及之前,字符串常量池存在永久代

jdk7中,字符串常量池调整到Java堆中,调优时仅需调整堆大小就可以

四、字符串拼接操作

常量与常量的拼接结果在常量池,原理是编译期优化

只要其中有一个变量,拼接结果就在堆中(常量池以外的堆),变量的拼接原理是StringBuilder 

String res  = s1 + s2; 
// 实际上是StringBuilder s = new StringBuilder().append(s1).append(s2); 
// 然后调用s.toString();

 

如果拼接的结果调用intern方法,则主动将常量池中还没有的字符串对象放入池中,并返回此对象地址

字符串拼接操作不一定使用的是StringBuilder如果拼接符号左右两边都是字符串常量或常量引用,则仍然使用编译期优化,即非StringBuilder的方式

针对final修饰类,方法,基本数据类型,引用数据类型变量的结构时,能使用final尽量使用上

 

五、intern()方法

jdk1.6中,将这个字符串对象放入串池

  • 如果串池中有,则并不会放入,返回已有串池中的对象的地址,
  • 如果没有,会把对象复制一份,放入串池,并返回串池中的对象地址

jdk1.7起,将这个字符串对象尝试放入串池

  • 如果串池中有,则并不会放入,返回已有的串池中的对象的地址
  • 如果没有,则会把对象的引用地址复制一份,放入串池,并返回串池中的引用地址

例子:

前置知识

newString(“ab”)会创建几个对象?

2个对象,查看字节码验证。一个是常量池ab,一个是new出来在堆空间。(前提是常量池没有ab)

new String(“a”)+new String(“b”)?

  • 对象1,有拼接操作就newStringBuilder
  • 对象2,new一个String
  • 对象3,常量池a
  • 对象4,new String
  • 对象5,常量池b
  • 对象6,StringBuilder,toString方法会new String返回
    • 注意:toString方法这里new String并不会向字符串常量池中放入”ab”,不像我们平时上面一样会放入一个“ab”在常量池中。

结果

jdk6        false false

jdk7/8        false true

分析:

jdk6的intern会复制一份”1″放入字符串常量池。但是new的时候其实已经放入常量池了,所以这里intern没啥用,此时s2拿到的就是常量池的那一份。而s是指向堆中new出来的String对象,所以为false

s3这里intern的时候常量池没有“11”,所以会复制一份放入常量池,此时s4拿到的就是常量池的那一份。而s3指向堆中new出来的String对象,所以为false

jdk7/8的intern是复制引用地址放入字符串常量池,但是new的时候其实已经放入常量池了,所以这里intern没啥用,此时s2拿到的就是常量池的那一份。所以为false

s3这里intern的时候常量池没有“11”,所以会复制引用放入常量池,此时s4拿到的就是常量池的那一份引用。而s3也指向堆中new出来的String对象,所以为true

六、Stringtable的垃圾回收

-XX:+PrintStringTableStatistics

七、G1中String去重操作

背景:对许多Java应用,做的测试结果如下

  • 堆存货数据集合里面String对象占了25%
  • 堆存活数据集合里面重复的String对象有13.5%
  • String对象的平均长度是45

许多大规模的Java应用的瓶颈在于内存。Java堆中存活的数据集合差不多25%是String对象,这里差不多一半的String对象是重复的, 重复是指equals方法=true,堆上重复的String对象必然是一种内存的浪费。G1垃圾收集器中实现自动持续对重复的String对象进行去重,这样避免浪费。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年12月11日
下一篇 2023年12月11日

相关推荐