在程序中你可能時常會需要將別的類型轉(zhuǎn)化成String,有時候可能是一些基礎(chǔ)類型的值。在拼接字符串的時候,如果你有兩個或者多個基礎(chǔ)類型的值需要放到前面,你需要顯式的將第一個值轉(zhuǎn)化成String(不然的話像System.out.println(1+'a')會輸出98,而不是"1a")。當(dāng)然了,有一組String.valueOf方法可以完成這個(或者是基礎(chǔ)類型對應(yīng)的包裝類的方法),不過如果有更好的方法能少敲點代碼的話,誰還會愿意這么寫呢?
在基礎(chǔ)類型前面拼接上一個空串(""+1)是簡單的方法了。這個表達(dá)式的結(jié)果就是一個String,在這之后你就可以隨意的進(jìn)行字符串拼接操作了——編譯器會自動將那些基礎(chǔ)類型全轉(zhuǎn)化成String的。
不幸的是,這是糟糕的實現(xiàn)方法了。要想知道為什么,我們得先介紹下這個字符串拼接在Java里是如何處理的。如果一個字符串(不管是字面常量也好,或者是變量,方法調(diào)用的結(jié)果也好)后面跟著一個+號,再后面是任何的類型表達(dá)式:
string_exp + any_exp
Java編譯器會把它變成:
new StringBuilder().append( string_exp ).append( any_exp ).toString()
如果表達(dá)式里有多個+號的話,后面相應(yīng)也會多多幾個StringBuilder.append的調(diào)用,后才是toString方法。
StringBuilder(String)這個構(gòu)造方法會分配一塊16個字符的內(nèi)存緩沖區(qū)。因此,如果后面拼接的字符不超過16的話,StringBuilder不需要再重新分配內(nèi)存,不過如果超過16個字符的話StringBuilder會擴(kuò)充自己的緩沖區(qū)。后調(diào)用toString方法的時候,會拷貝StringBuilder里面的緩沖區(qū),新生成一個String對象返回。
這意味著基礎(chǔ)類型轉(zhuǎn)化成String的時候,糟糕的情況就是你得創(chuàng)建:一個StringBuilder對象,一個char[16]數(shù)組,一個String對象,一個能把輸入值存進(jìn)去的char[]數(shù)組。使用String.valueOf的話,至少StringBuilder對象省掉了。
有的時候或許你根本就不需要轉(zhuǎn)化基礎(chǔ)類型。比如,你正在解析一個字符串,它是用單引號分隔開的。初你可能是這么寫的:
final int nextComma = str.indexOf("'");
或者是這樣:
final int nextComma = str.indexOf('\'');
程序開發(fā)完了,需求變更了,需要支持任意的分隔符。當(dāng)然了,你的第一反應(yīng)是,得將這個分隔符存到一個String對象中,然后使用String.indexOf方法來進(jìn)行拆分。我們假設(shè)有個預(yù)先配置好的分隔符就放到m_separator字段里(譯注:能用這個變量名的,應(yīng)該不是Java開發(fā)出身的吧。。)。那么,你解析的代碼應(yīng)該會是這樣的:
private static List<String> split( final String str )
{
final List<String> res = new ArrayList<String>( 10 );
int pos, prev = 0;
while ( ( pos = str.indexOf( m_separator, prev ) ) != -1 )
{
res.add( str.substring( prev, pos ) );
prev = pos + m_separator.length(); // start from next char after separator
}
res.add( str.substring( prev ) );
return res;
}
不過后面你發(fā)現(xiàn)這個分隔符就只有一個字符。在初始化的時候,你把String mseparator改成了char mseparator,然后把setter方法也一起改了。但你希望解析的方法不要改動太大(代碼現(xiàn)在是好使的,我為什么要費(fèi)勁去改它呢?):
private static List<String> split2( final String str )
{
final List<String> res = new ArrayList<String>( 10 );
int pos, prev = 0;
while ( ( pos = str.indexOf("" + m_separatorChar, prev ) ) != -1 )
{
res.add( str.substring( prev, pos ) );
prev = pos + 1; // start from next char after separator
}
res.add( str.substring( prev ) );
return res;
}
正如你所看到的,indexOf方法的調(diào)用被改動了,不過它還是新建出了一個字符串然后傳遞進(jìn)去。當(dāng)然,這么做是錯的,因為還有一個indexOf方法是接收char類型而不是String類型的。我們用它來改寫一下:
private static List<String> split3( final String str )
{
final List<String> res = new ArrayList<String>( 10 );
int pos, prev = 0;
while ( ( pos = str.indexOf(m_separatorChar, prev ) ) != -1 )
{
res.add( str.substring( prev, pos ) );
prev = pos + 1; // start from next char after separator
}
res.add( str.substring( prev ) );
return res;
}
我們來用上面的三種實現(xiàn)來進(jìn)行測試,將"abc,def,ghi,jkl,mno,pqr,stu,vwx,yz"這個串解析1000萬次。下面是Java 641和715的運(yùn)行時間。Java7由于它的String.substring方法線性復(fù)雜度的所以運(yùn)行時間反而增加了。關(guān)于這個你可以參考下這里的資料。
可以看到的是,簡單的一個重構(gòu),明顯的縮短了分割字符串所需要的時間(split/split2->split3)。
split | split2 | split3 | |
---|---|---|---|
Java 6 | 4.65 sec | 10.34 sec | 3.8 sec |
Java 7 | 6.72 sec | 8.29 sec | 4.37 sec |
本文當(dāng)然也不能完全不提字符串拼接另外兩種方法。第一種是String.concat,這個很少會用到。它內(nèi)部其實是分配了一個char[],長度就是拼接后的字符串的長度,它將字符串的數(shù)據(jù)拷貝到里面,后使用了私有的構(gòu)造方法來生成了一個新的字符串,這個構(gòu)造方法不會再對char[]進(jìn)行拷貝,因此這個方法調(diào)用只創(chuàng)建了兩個對象,一個是String本身,還有一個就是它內(nèi)部的char[]。不幸的是,除非你只拼接兩個字符串,這個方法才會比較高效一些。
還有一種方法就是使用StringBuilder類,以及它的一系列的append方法。如果你有很多要拼接的值的話,這個方法當(dāng)然是快的了。它在Java5中被首度引入,用來替代StringBuffer。它們的主要區(qū)別就是StringBuffer是線程安全的,而StringBuilder不是。不過你會經(jīng)常并發(fā)的拼接字符串么難道?
在測試中,我們把0到100000之間的數(shù)全部進(jìn)行了拼接,分別使用了String.concat, +操作符,還有StringBuilder,代碼如下:
String res = "";
for ( int i = 0; i < ITERS; ++i )
{
final String s = Integer.toString( i );
res = res.concat( s ); //second option: res += s;
}
//third option:
StringBuilder res = new StringBuilder();
for ( int i = 0; i < ITERS; ++i )
{
final String s = Integer.toString( i );
res.append( s );
}
String.concat | + | StringBuilder.append |
---|---|---|
10.145 sec | 42.677 sec | 0.012 sec |
我們假設(shè)Oracle的工程師實現(xiàn)這個選項的時候是盡了大努力的吧。坊間傳聞,它是把一些StringBuilder拼接的邏輯替換成了類似String.concat那樣的實現(xiàn)——它先生成一個合適大小的char[]然后再把東西拷貝進(jìn)去。后生成一個String。那些嵌套的拼接操作它可能也支持(str1 +(str2+str3) +str4)。打開這個選項后進(jìn)行測試,結(jié)果表明,+號的性能跟String.concat的十分接近:
String.concat | + | StringBuilder.append |
---|---|---|
10.19 sec | 10.722 sec | 0.013 sec |
final String s = BASE + i;
final String s = new StringBuilder( 21 ).append( BASE ).append( i ).toString();
沒有打開這個選項的話,+號的實現(xiàn)會比顯式的StringBuilder的實現(xiàn)的時間要多出一半。打開了這個選項后,兩邊的結(jié)果是一樣的。不過有趣的是,即使是StringBuilder的實現(xiàn)本身,打開了開關(guān)后速度居然也變快了!
+, 開關(guān)關(guān)閉 | +, 開關(guān)打開 | new StringBuilder(21),開關(guān)關(guān)閉 | new StringBuilder(21),開關(guān)打開 |
---|---|---|---|
0.958 sec | 0.494 sec | 0.663 sec | 0.494 sec |
- 當(dāng)轉(zhuǎn)化成字符串的時候,應(yīng)當(dāng)避免使用""串進(jìn)行轉(zhuǎn)化。使用合適的String.valueOf方法或者包裝類的toString(value)方法。
- 盡量使用StringBuilder進(jìn)行字符串拼接。檢查下老舊碼,把那些能替換掉的StringBuffer也替換成它。
- 使用Java 6 update 20引入的-XX:+OptimizeStringConcat選項來提高字符串拼接的性能。在近的Java7的版本中已經(jīng)默認(rèn)打開了,不過在Java 6_41還是關(guān)閉的。