一、引言
String 對(duì)象是我們使用最頻繁的一個(gè)對(duì)象類型,但它的性能問題卻是最容易被忽略的。String 對(duì)象作為 Java 語(yǔ)言中重要的數(shù)據(jù)類型,是內(nèi)存中占據(jù)空間最大的一個(gè)對(duì)象。高效地使用字符串,可以提升系統(tǒng)的整體性能。
二、String 對(duì)象的實(shí)現(xiàn)
在 Java 語(yǔ)言中,Sun 公司的工程師們對(duì) String 對(duì)象做了大量的優(yōu)化,來節(jié)約內(nèi)存空間,提升 String 對(duì)象在系統(tǒng)中的性能。
1. 在 Java6 以及之前的版本中,String 對(duì)象是對(duì) char 數(shù)組進(jìn)行了封裝實(shí)現(xiàn)的對(duì)象,主要有四個(gè)成員變量:char 數(shù)組、偏移量 offset、字符數(shù)量 count、哈希值 hash。String 對(duì)象是通過 offset 和 count 兩個(gè)屬性來定位 char[] 數(shù)組,獲取字符串。這么做可以高效、快速地共享數(shù)組對(duì)象,同時(shí)節(jié)省內(nèi)存空間,但這種方式很有可能會(huì)導(dǎo)致內(nèi)存泄漏。
2. 從 Java7 版本開始到 Java8 版本,Java 對(duì) String 類做了一些改變。String 類中不再有 offset 和 count 兩個(gè)變量了。這樣的好處是 String 對(duì)象占用的內(nèi)存稍微少了些,同時(shí),String.substring 方法也不再共享 char[],從而解決了使用該方法可能導(dǎo)致的內(nèi)存泄漏問題。
3. 從 Java9 版本開始,工程師將 char[] 字段改為了 byte[] 字段,又維護(hù)了一個(gè)新的屬性 coder,它是一個(gè)編碼格式的標(biāo)識(shí)。
工程師為什么這樣修改呢?
我們知道一個(gè) char 字符占 16 位,2 個(gè)字節(jié)。這個(gè)情況下,存儲(chǔ)單字節(jié)編碼內(nèi)的字符(占一個(gè)字節(jié)的字符)就顯得非常浪費(fèi)。JDK1.9 的 String 類為了節(jié)約內(nèi)存空間,于是使用了占 8 位,1 個(gè)字節(jié)的 byte 數(shù)組來存放字符串。
而新屬性 coder 的作用是,在計(jì)算字符串長(zhǎng)度或者使用 indexOf()函數(shù)時(shí),我們需要根據(jù)這個(gè)字段,判斷如何計(jì)算字符串長(zhǎng)度。coder 屬性默認(rèn)有 0 和 1 兩個(gè)值,0 代表 Latin-1(單字節(jié)編碼),1 代表 UTF-16。如果 String 判斷字符串只包含了 Latin-1,則 coder 屬性值為 0,反之則為 1。
三、String 對(duì)象的不可變性起因
了解了 String 對(duì)象的實(shí)現(xiàn)后,你有沒有發(fā)現(xiàn)在實(shí)現(xiàn)代碼中 String 類被 final 關(guān)鍵字修飾了,而且變量 char 數(shù)組也被 final 修飾了。
我們知道類被 final 修飾代表該類不可繼承,而 char[] 被 final+private 修飾,代表了 String 對(duì)象不可被更改。Java 實(shí)現(xiàn)的這個(gè)特性叫作 String 對(duì)象的不可變性,即 String 對(duì)象一旦創(chuàng)建成功,就不能再對(duì)它進(jìn)行改變。
四、String 對(duì)象的不可變性好處
1.保證 String 對(duì)象的安全性。假設(shè) String 對(duì)象是可變的,那么 String 對(duì)象將可能被惡意修改。
2.保證 hash 屬性值不會(huì)頻繁變更,確保了唯一性,使得類似 HashMap 容器才能實(shí)現(xiàn)相應(yīng)的 key-value 緩存功能。
3.可以實(shí)現(xiàn)字符串常量池。在 Java 中,通常有兩種創(chuàng)建字符串對(duì)象的方式,一種是通過字符串常量的方式創(chuàng)建,如 String str=“abc”;另一種是字符串變量通過 new 形式的創(chuàng)建,如 String str = new String(“abc”)。
當(dāng)代碼中使用第一種方式創(chuàng)建字符串對(duì)象時(shí),JVM 首先會(huì)檢查該對(duì)象是否在字符串常量池中,如果在,就返回該對(duì)象引用,否則新的字符串將在常量池中被創(chuàng)建。這種方式可以減少同一個(gè)值的字符串對(duì)象的重復(fù)創(chuàng)建,節(jié)約內(nèi)存。
String str = new String(“abc”) 這種方式,首先在編譯類文件時(shí),“abc”常量字符串將會(huì)放入到常量結(jié)構(gòu)中,在類加載時(shí),“abc“將會(huì)在常量池中創(chuàng)建;其次,在調(diào)用 new 時(shí),JVM 命令將會(huì)調(diào)用 String 的構(gòu)造函數(shù),同時(shí)引用常量池中的”abc” 字符串,在堆內(nèi)存中創(chuàng)建一個(gè) String 對(duì)象;最后,str 將引用 String 對(duì)象。
五、String 對(duì)象的優(yōu)化
1. 如何構(gòu)建超大字符串?
編程過程中,字符串的拼接很常見。前面我講過 String 對(duì)象是不可變的,如果我們使用 String 對(duì)象相加,拼接我們想要的字符串,是不是就會(huì)產(chǎn)生多個(gè)對(duì)象呢?例如以下代碼:
String str= “ab” + “cd” + “ef”;
分析代碼可知:首先會(huì)生成 ab 對(duì)象,再生成 abcd 對(duì)象,最后生成 abcdef 對(duì)象,從理論上來說,這段代碼是低效的。
但實(shí)際運(yùn)行中,我們發(fā)現(xiàn)只有一個(gè)對(duì)象生成,這是為什么呢?難道我們的理論判斷錯(cuò)了?我們?cè)賮砜淳幾g后的代碼,你會(huì)發(fā)現(xiàn)編譯器自動(dòng)優(yōu)化了這行代碼,如下:
String str= “abcdef”;
上面介紹的是字符串常量的累計(jì),再來看看字符串變量的累計(jì)又是怎樣的呢?
String str = “abcdef”;
for(int i=0; i《1000; i++) {
str = str + i;
}
上面的代碼編譯后,你可以看到編譯器同樣對(duì)這段代碼進(jìn)行了優(yōu)化。不難發(fā)現(xiàn),Java 在進(jìn)行字符串的拼接時(shí),偏向使用 StringBuilder,這樣可以提高程序的效率。
String str = “abcdef”;
for(int i=0; i《1000; i++) {
str = (new StringBuilder(String.valueOf(str))).append(i).toString();
}
綜上已知:即使使用 + 號(hào)作為字符串的拼接,也一樣可以被編譯器優(yōu)化成 StringBuilder 的方式。但再細(xì)致些,你會(huì)發(fā)現(xiàn)在編譯器優(yōu)化的代碼中,每次循環(huán)都會(huì)生成一個(gè)新的 StringBuilder 實(shí)例,同樣也會(huì)降低系統(tǒng)的性能。
所以平時(shí)做字符串拼接的時(shí)候,我建議你還是要顯示地使用 String Builder 來提升系統(tǒng)性能。
如果在多線程編程中,String 對(duì)象的拼接涉及到線程安全,你可以使用 StringBuffer。但是要注意,由于 StringBuffer 是線程安全的,涉及到鎖競(jìng)爭(zhēng),所以從性能上來說,要比 StringBuilder 差一些。
2. 如何使用 String.intern 節(jié)省內(nèi)存?
講完了構(gòu)建字符串,我們?cè)賮碛懻撓?String 對(duì)象的存儲(chǔ)問題。先看一個(gè)案例。
Twitter 每次發(fā)布消息狀態(tài)的時(shí)候,都會(huì)產(chǎn)生一個(gè)地址信息,以當(dāng)時(shí) Twitter 用戶的規(guī)模預(yù)估,服務(wù)器需要 32G 的內(nèi)存來存儲(chǔ)地址信息。
private String city;
private String region;
private String countryCode;
private double longitude;
private double latitude;
}
考慮到其中有很多用戶在地址信息上是有重合的,比如,國(guó)家、省份、城市等,這時(shí)就可以將這部分信息單獨(dú)列出一個(gè)類,以減少重復(fù),代碼如下:
public class SharedLocation {
private String city;
private String region;
private String countryCode;
}
public class Location {
private SharedLocation sharedLocation;
double longitude;
double latitude;
}
通過優(yōu)化,數(shù)據(jù)存儲(chǔ)大小減到了 20G 左右。但對(duì)于內(nèi)存存儲(chǔ)這個(gè)數(shù)據(jù)來說,依然很大,怎么辦呢?
這個(gè)案例來自一位 Twitter 工程師在 QCon 全球軟件開發(fā)大會(huì)上的演講,他們想到的解決方法,就是使用 String.intern 來節(jié)省內(nèi)存空間,從而優(yōu)化 String 對(duì)象的存儲(chǔ)。
具體做法就是,在每次賦值的時(shí)候使用 String 的 intern 方法,如果常量池中有相同值,就會(huì)重復(fù)使用該對(duì)象,返回對(duì)象引用,這樣一開始的對(duì)象就可以被回收掉。這種方式可以使重復(fù)性非常高的地址信息存儲(chǔ)大小從 20G 降到幾百兆。
SharedLocation sharedLocation = new SharedLocation();
sharedLocation.setCity(messageInfo.getCity().intern()); sharedLocation.setCountryCode(messageInfo.getRegion().intern());
sharedLocation.setRegion(messageInfo.getCountryCode().intern());
Location location = new Location();
location.set(sharedLocation);
location.set(messageInfo.getLongitude());
location.set(messageInfo.getLatitude());
為了更好地理解,我們?cè)賮硗ㄟ^一個(gè)簡(jiǎn)單的例子,回顧下其中的原理:
String a =new String(“abc”).intern();
String b = new String(“abc”).intern();
if(a==b) {
System.out.print(“a==b”);
}
輸出結(jié)果:
a==b
在字符串常量中,默認(rèn)會(huì)將對(duì)象放入常量池;在字符串變量中,對(duì)象是會(huì)創(chuàng)建在堆內(nèi)存中,同時(shí)也會(huì)在常量池中創(chuàng)建一個(gè)字符串對(duì)象,復(fù)制到堆內(nèi)存對(duì)象中,并返回堆內(nèi)存對(duì)象引用。
如果調(diào)用 intern 方法,會(huì)去查看字符串常量池中是否有等于該對(duì)象的字符串的引用,如果沒有,在 JDK1.6 版本中會(huì)復(fù)制堆中的字符串到常量池中,并返回該字符串引用,堆內(nèi)存中原有的字符串由于沒有引用指向它,將會(huì)通過垃圾回收器回收。
在 JDK1.7 版本以后,由于常量池已經(jīng)合并到了堆中,所以不會(huì)再?gòu)?fù)制具體字符串了,只是會(huì)把首次遇到的字符串的引用添加到常量池中;如果有,就返回常量池中的字符串引用。
了解了原理,我們?cè)僖黄鹂聪律线叺睦印?/p>
在一開始字符串“abc”會(huì)在加載類時(shí),在常量池中創(chuàng)建一個(gè)字符串對(duì)象。
創(chuàng)建 a 變量時(shí),調(diào)用 new String() 會(huì)在堆內(nèi)存中創(chuàng)建一個(gè) String 對(duì)象,String 對(duì)象中的 char 數(shù)組將會(huì)引用常量池中字符串。在調(diào)用 intern 方法之后,會(huì)去常量池中查找是否有等于該字符串對(duì)象的引用,有就返回引用。
創(chuàng)建 b 變量時(shí),調(diào)用 new String() 會(huì)在堆內(nèi)存中創(chuàng)建一個(gè) String 對(duì)象,String 對(duì)象中的 char 數(shù)組將會(huì)引用常量池中字符串。在調(diào)用 intern 方法之后,會(huì)去常量池中查找是否有等于該字符串對(duì)象的引用,有就返回引用。
而在堆內(nèi)存中的兩個(gè)對(duì)象,由于沒有引用指向它,將會(huì)被垃圾回收。所以 a 和 b 引用的是同一個(gè)對(duì)象。
如果在運(yùn)行時(shí),創(chuàng)建字符串對(duì)象,將會(huì)直接在堆內(nèi)存中創(chuàng)建,不會(huì)在常量池中創(chuàng)建。所以動(dòng)態(tài)創(chuàng)建的字符串對(duì)象,調(diào)用 intern 方法,在 JDK1.6 版本中會(huì)去常量池中創(chuàng)建運(yùn)行時(shí)常量以及返回字符串引用,在 JDK1.7 版本之后,會(huì)將堆中的字符串常量的引用放入到常量池中,當(dāng)其它堆中的字符串對(duì)象通過 intern 方法獲取字符串對(duì)象引用時(shí),則會(huì)去常量池中判斷是否有相同值的字符串的引用,此時(shí)有,則返回該常量池中字符串引用,跟之前的字符串指向同一地址的字符串對(duì)象。
以一張圖來總結(jié) String 字符串的創(chuàng)建分配內(nèi)存地址情況:
使用 intern 方法需要注意的一點(diǎn)是,一定要結(jié)合實(shí)際場(chǎng)景。因?yàn)槌A砍氐膶?shí)現(xiàn)是類似于一個(gè) HashTable 的實(shí)現(xiàn)方式,HashTable 存儲(chǔ)的數(shù)據(jù)越大,遍歷的時(shí)間復(fù)雜度就會(huì)增加。如果數(shù)據(jù)過大,會(huì)增加整個(gè)字符串常量池的負(fù)擔(dān)。
3. 如何使用字符串的分割方法?
Split() 方法使用了正則表達(dá)式實(shí)現(xiàn)了其強(qiáng)大的分割功能,而正則表達(dá)式的性能是非常不穩(wěn)定的,使用不恰當(dāng)會(huì)引起回溯問題,很可能導(dǎo)致 CPU 居高不下。
所以我們應(yīng)該慎重使用 Split() 方法,我們可以用 String.indexOf() 方法代替 Split() 方法完成字符串的分割。如果實(shí)在無法滿足需求,你就在使用 Split() 方法時(shí),對(duì)回溯問題加以重視就可以了。
六、總結(jié)
我們認(rèn)識(shí)到做好 String 字符串性能優(yōu)化,可以提高系統(tǒng)的整體性能。在這個(gè)理論基礎(chǔ)上,Java 版本在迭代中通過不斷地更改成員變量,節(jié)約內(nèi)存空間,對(duì) String 對(duì)象進(jìn)行優(yōu)化。
我們還特別提到了 String 對(duì)象的不可變性,正是這個(gè)特性實(shí)現(xiàn)了字符串常量池,通過減少同一個(gè)值的字符串對(duì)象的重復(fù)創(chuàng)建,進(jìn)一步節(jié)約內(nèi)存。
但也是因?yàn)檫@個(gè)特性,我們?cè)谧鲩L(zhǎng)字符串拼接時(shí),需要顯示使用 StringBuilder,以提高字符串的拼接性能。最后,在優(yōu)化方面,我們還可以使用 intern 方法,讓變量字符串對(duì)象重復(fù)使用常量池中相同值的對(duì)象,進(jìn)而節(jié)約內(nèi)存。
最后再分享一個(gè)個(gè)人觀點(diǎn)。那就是千里之堤,潰于蟻穴。日常編程中,我們往往可能就是對(duì)一個(gè)小小的字符串了解不夠深入,使用不夠恰當(dāng),從而引發(fā)線上事故。
比如,在我之前的工作經(jīng)歷中,就曾因?yàn)槭褂谜齽t表達(dá)式對(duì)字符串進(jìn)行匹配,導(dǎo)致并發(fā)瓶頸,這里也可以將其歸納為字符串使用的性能問題。
責(zé)任編輯:ct
評(píng)論
查看更多