重谈字符串连接性能（中）：细节实现

2009-12-03 10:10 by 老赵, 10516 visits

根据上次的评测结果，我们了解了几种字符串拼接方式的性能高低。从中可以看出，广受追捧的StringBuilder性能似乎并不是最好的，String.Concat方法有时候有时候更适合使用。那么为什么String.Concat方法性能那么高，StringBuilder又为什么落败，而我们又有没有什么可以改进的做法呢？为此，我们不妨动用.NET Reflector这一利器，看一下两者是怎么实现的。

String.Concat为什么这么快

String.Concat方法有多个重载，其中我们关注那个接受字符串数组作为参数的重载，它是实现的核心。代码如下：

public static string Concat(params string[] values)
{
    int totalLength = 0;

    if (values == null)
    {
        throw new ArgumentNullException("values");
    }

    string[] arrayToConcate = new string[values.Length];

    // 遍历源数组，填充拼接用的数组
    for (int i = 0; i < values.Length; i++)
    {
        string str = values[i];

        // null作为空字符串对待
        arrayToConcate[i] = (str == null) ? Empty : str;

        // 累计字符串总长度
        totalLength += arrayToConcate[i].Length;

        // 如果越界了，抛异常
        if (totalLength < 0)
        {
            throw new OutOfMemoryException();
        }
    }

    // 拼接
    return ConcatArray(arrayToConcate, totalLength);
}

由于数组中的字符串都是确定的，因此Concat方法可以事先计算出结果的长度，并交由ConcatArray方法进行拼接：

[MethodImpl(MethodImplOptions.InternalCall)]
private static extern string FastAllocateString(int length);

private static string ConcatArray(string[] values, int totalLength)
{
    // 分配目标字符串所占用的空间（即创建对象）
    string dest = FastAllocateString(totalLength);

    int destPos = 0;

    for (int i = 0; i < values.Length; i++)
    {
        // 不断将源字符串的每个元素填充至目标位置
        FillStringChecked(dest, destPos, values[i]);

        // 偏移量不断更新
        destPos += values[i].Length;
    }

    return dest;
}

在ConcatArray方法中，首先使用FastAllocateString分配一个长度为length的字符串对象——这是一个外部调用，由CLR实现。CLR在堆上会生成一个字符串对象（其实就是开辟一块内存，并填好一些数据），其中包含了各个字段，也就是说“结构”已经完备，而唯一所缺的便是字符串的内容。于是遍历源字符串数组，将它们一个一个复制（或叫做“填充”）到目标字符串的某一段位置上去，它所用的FilStringChecked方法实现如下：

private static unsafe void FillStringChecked(string dest, int destPos, string src)
{
    int length = src.Length;
    if (length > (dest.Length - destPos))
    {
        throw new IndexOutOfRangeException();
    }

    fixed (char* chDest = &dest.m_firstChar)
    {
        fixed (char* chSrc = &src.m_firstChar)
        {
            wstrcpy(chDest + destPos, chSrc, length);
        }
    }
}

这里使用了非安全代码，直接调用wstrcpy复制内存上的内容，wstrcpy方法的具体实现很“单纯”，我们可以不去关心它，而这里可以关注的是作内存数据复制的“位置”是哪里。从前一篇文章中我们知道，在一个字符串结构中，从对象地址偏移12字节的地方是m_firstChar字段，这个字段——更确切地说应该是“位置”包含了字符串的首地址，而往后则便是一个一个字符了。换句话说，从m_firstChar字段的地址开始便是字符串的内容，因此FillStringChecked方法在复制的时候，都是从m_firstChar开始的：从src.m_firstChar读取数据，而从dest.m_firstChar开始偏移destPos个字符的位置写入。

这便是String.Concat(string[])方法的全部实现，非常简单，清晰，但这也正是这个方法高效的原因所在。我们知道字符串是个不可变的对象，每次新建字符串都要开辟一块新空间。而String.Concat方法便将这个开辟新空间的代价减少到最小。因为在此之前已经确定结果的大小，因此直接创建一个“容器”即可，剩下的只是填充数据而已。既然可以不浪费任何一寸空间，也没有任何多余的操作，性能又怎会不高呢？

String.Concat还有一些重载，接受少量的对象进行拼接，这些方法都是单独实现，而没有委托给接受字符串数组的重载，这也是出于性能考虑——毕竟节省了构造字符串数组的开销。String.Concat方法和编译器联系紧密，属于使用最为频繁的操作之一，因此.NET在这里会尽可能榨干任何性能上的水分。

String即Builder

这个节标题有些唬人，不过这也是我最终得到的结果。可能这和平时了解的东西不太一样，对于一些初学的朋友可能不太适合去记住这个，反而会产生混淆。这其实也是我认为不能“一切都追究到底”，而必须“在一定抽象上看待事物”的原因。不过，现在我们只是在关注一个客观事实，希望这个事实不会对您产生误导。

我们从了解.NET之处便一直被告知，String对象是不可变的，因此我们没法修改一个String对象，只能新建一个。但是，上面的代码也告诉我们，String并非不可变的，它只是不允许外界进行修改，而.NET内部爱怎么动便可以怎么动。这句话从两个角度来理解会有不同感觉：1) 这是一句废话，因为所有东西都在内存里，只要能涂改内存里的数据，又有什么不是不可修改的呢？不过，2) 其实从代码上看，String对象其实原本就打算给人（自己人）修改，String了解StringBuilder的存在，而StringBuilder也只是利用了String原有的功能而已。如一言蔽之：String有可变和不可变两个方面，从外界只能看到String不可变的一面，而可变的一面由StringBuilder暴露出来。

为什么这么说呢？我们来看StringBuilder的Append方法：

public StringBuilder Append(string value)
{
    if (value != null)
    {
        string currentValue = this.m_StringValue;

        IntPtr currentThread = Thread.InternalGetCurrentThread();

        // 如果上次修改和本次修改不是同一个线程，
        if (this.m_currentThread != currentThread)
        {
            // 则复制一份当前的字符串及“容量”，
            // 避免多个线程修改同一块内存
            currentValue = string.GetStringForStringBuilder(currentValue, currentValue.Capacity);
        }

        int length = currentValue.Length;
        // 计算目标长度
        int requiredLength = length + value.Length;

        // 如果目标长度超过当前容量
        if (this.NeedsAllocation(currentValue, requiredLength))
        {
            // 则复制一个新的字符串对象，不过拥有更大的容量
            string newString = this.GetNewString(currentValue, requiredLength);
            // 把新加的部分复制到原“字符序列”的后面
            newString.AppendInPlace(value, length);
            // 保留当前线程标识符及新的字符串对象（新容量）
            this.ReplaceString(currentThread, newString);
        }
        else // 容量足够
        {
            currentValue.AppendInPlace(value, length);
            this.ReplaceString(currentThread, currentValue);
        }
    }

    return this;
}

private bool NeedsAllocation(string currentString, int requiredLength)
{
    return (currentString.ArrayLength <= requiredLength);
}

之前我们分析了String对象的结构，发现其中有两个字段，stringLength和arrayLength，其中stringLength自然表示了字符串的长度，但字符串对象的体积确是由arrayLength决定的。换句话说，假设有一个stringLength为1，arrayLength为100的字符串对象，它的大小与stringLength为90，arrayLength为100的对象完全一样。这样看来arrayLength就好比一个“容量”，表明了这个字符串对象“可以包含”的最长字符序列。事实上从上面的代码中也可以看出，String类中的确有这么一个Capacity属性：

public class String
{
    internal int Capacity
    {
        get
        {
            return (this.m_arrayLength - 1);
        }
    }
}

可见，它的值便是arrayLength——抛开最后一位填上“\0”，也因此上次我们发现，对于最“满当”的字符串，arrayLength也比stringLength多1。当然，在平时来说，我们只能创建容量与内容相同的字符串，如果真要创建一个“空荡荡”的容器，则需要调用String类的静态方法GetStringForStringBuilder——虽然这的确没有什么用途。GetStringForStringBuilder的实现我们也可以猜出，便是让CLR分别一个一定容量的字符串对象，然后从m_firstChar的地址进行内存复制而已。

在我们不断地Append之后，最后便要调用StringBuilder的ToString方法了：

public override string ToString()
{
    string currentValue = this.m_currentValue;

    if (this.m_currentThread != Thread.InternalGetCurrentThread())
    {
        return string.InternalCopy(currentValue);
    }

    // 如果这个字符串对象“太空”的话
    if ((2 * currentValue.Length) < currentValue.ArrayLength)
    {
        // 则构造一个“满当”地对象
        return string.InternalCopy(currentValue);
    }

    // 将字符序列最后放一个\0
    currentValue.ClearPostNullChar();

    // 既然容器已经“暴露”，则设制“当前线程”的标识为Zero，
    // 这意味着下次操作会生成新字符串对象（即新的容器）
    this.m_currentThread = IntPtr.Zero;

    // 如果“还不算太空”，则返回当前对象
    return currentValue;
}

StringBuilder的ToString方法比较有意思，它会判断到底是“构造一个新对象”还是就“直接返回当前容器”给你。如果直接返回当前容器，则可能会浪费较多内存，而如果构造一个新对象，则又会损耗性能。让StringBuilder做出决定的便是容器内部的字符序列占“最大容积”的比例，如果超过一半，则表明“还不算太空”，便选择“时间”，直接返回容器；否则，StringBuilder会认为还是选择“空间”较为合算，便构造一个新对象并返回，至于当前的容器便会和StringBuilder一道被GC回收了。

同时我们可以看到，如果返回了新对象，则当前容器还可以继续在Append时使用，否则Append方法便会因为m_currentValue为Zero而创建新的容器。不过，从ToString的实现中也可以看出，多次调用ToString方法一定返回新建的对象。这是一种浪费，虽然在一般情况下这不会成为问题，但如果写出这样的代码，便是无端在浪费性能了：

var sb = new StringBuilder();
// ...

for (var i = 0; i < sb.ToString().Length; i++)
{ 
    // ...
}

喔，很容易明白，不是吗？

似乎关于String和StringBuilder对象的一切都差不多暴露在眼前，那么我们离真相也应该已经不远了。不过接下来的东西，还是留在下次评述吧。

Categories: .Net框架, 实践优化
Tags: 字符串, 连接, StringBuilder

本文基于署名 2.5 中国大陆许可协议发布，欢迎转载，演绎或用于商业目的，但是必须保留本文的署名赵劼（包含链接），具体操作方式可参考此处。如您有任何疑问或者授权方面的协商，请给我留言。

Add your comment

40 条回复

*.*.*.*
链接
乌卡卡 2009-12-03 10:12:00

沙发了，再看吧

*.*.*.*
链接
徐少侠 2009-12-03 10:33:00

陪老赵一起耍性能
呵呵
不过照片上貌似不老呀

*.*.*.*
链接
木野狐(Neil Chen) 2009-12-03 10:37:00

继续关注 :)

*.*.*.*
链接
亚历山大同志 2009-12-03 10:43:00

老赵是深挖洞广积粮的典心，string这个坑挖这么大，能存不少东西了

*.*.*.*
链接
Ivony... 2009-12-03 10:45:00

String早就挖得差不多了，，，Array和GC才是大坑。。。。

admin
链接
老赵 2009-12-03 10:47:00

@Ivony...
CLR是个奇特的东西，好多东西很难挖，比如GC，因为看不到代码……
话说脑袋昨天说去看GC的代码，结果如何？

*.*.*.*
链接
RednaxelaFX 2009-12-03 10:50:00

Jeffrey Zhao：
@Ivony...
CLR是个奇特的东西，好多东西很难挖，比如GC，因为看不到代码……
话说脑袋昨天说去看GC的代码，结果如何？

同问

*.*.*.*
链接
装配脑袋 2009-12-03 10:58:00

我只是想去看看那个card table和write barrier，没有去看GC……

admin
链接
老赵 2009-12-03 11:03:00

@装配脑袋
其实脑袋只要说看得到多少，说不定RFX就会口水四溢去微软了……

*.*.*.*
链接
装配脑袋 2009-12-03 11:05:00

有时候黑箱研究更有挑战性的说。。看代码，又不是能够build出来的代码，不能够跟进去看的那种很难说有多少吸引力。呵呵

admin
链接
老赵 2009-12-03 11:07:00

@装配脑袋
但是代码至少给出了探索的方向，好比没有引路人但有个地图还是好的……

*.*.*.*
链接
RednaxelaFX 2009-12-03 11:08:00

Jeffrey Zhao：
@装配脑袋
其实脑袋只要说看得到多少，说不定RFX就会口水四溢去微软了……

我一直都在口水四溢只是没能去微软而已……要是有人帮忙推荐的话就好了 TvT

*.*.*.*
链接
Ivony... 2009-12-03 11:16:00

装配脑袋：有时候黑箱研究更有挑战性的说。。看代码，又不是能够build出来的代码，不能够跟进去看的那种很难说有多少吸引力。呵呵

嗯，，，朦胧美。。。。

*.*.*.*
链接
韦恩卑鄙 alias:v-zhewg 2009-12-03 11:53:00

@老农
一般不看要联系可以用右下的msn

admin
链接
老赵 2009-12-03 12:19:00

RednaxelaFX：
我一直都在口水四溢只是没能去微软而已……要是有人帮忙推荐的话就好了 TvT

其实你的水平，想去的话直接应聘啊，要人推荐做啥……我也想你去微软，这样才好玩啊。

*.*.*.*
链接
Ivony... 2009-12-03 13:49:00

Jeffrey Zhao：
RednaxelaFX：
我一直都在口水四溢只是没能去微软而已……要是有人帮忙推荐的话就好了 TvT

其实你的水平，想去的话直接应聘啊，要人推荐做啥……我也想你去微软，这样才好玩啊。

介个，其实微软太大了，直接应聘很难找到合适的部门吧。。。。

要进微软从外包走貌似还是很简单的，，，只不过。。。。

*.*.*.*
链接
韦恩卑鄙 alias:v-zhewg 2009-12-03 13:54:00

只不过转正很难最近名额太少了吧

admin
链接
老赵 2009-12-03 14:04:00

@Ivony...
只不过RFX随便去一个团队估计也浪费了，也产生不到效果……

*.*.*.*
链接
Ivony... 2009-12-03 14:28:00

大家发现没，貌似.NET Framework开放源代码的力度变大了，现在更多源代码可以下载了。

正在下载System.Web

*.*.*.*
链接
钧梓昊逑 2009-12-03 15:17:00

Ivony...：
大家发现没，貌似.NET Framework开放源代码的力度变大了，现在更多源代码可以下载了。

正在下载System.Web

貌似很久以前就可以下载了

*.*.*.*
链接
路过 ........[未注册用户] 2009-12-03 16:29:00

是“重(zhong)” 还是"重(chong)" 啊

*.*.*.*
链接
pixysoft[未注册用户] 2009-12-03 17:08:00

没看完文章。不过

我发现stringbuilder 好像也用了string.concat.

在一次异常中，exception stack出现了。是先发生strign.concat异常，然后再在stringbuilder.

*.*.*.*
链接
RednaxelaFX 2009-12-03 17:22:00

pixysoft：
没看完文章。不过

我发现stringbuilder 好像也用了string.concat.

在一次异常中，exception stack出现了。是先发生strign.concat异常，然后再在stringbuilder.

这个可能要好好检查一下当时的stack trace……用Reflector看StringBuilder在managed的一侧是没有调用过String.Concat()方法的。而native的一侧也只有StringBuilder.Replace()而已，没调用String.Concat()。

admin
链接
老赵 2009-12-03 17:58:00

@RednaxelaFX
我猜会不会是某些特别的重载先作了一些计算，然后再调用Append(string)这个重载。

*.*.*.*
链接
小城故事 2009-12-03 18:11:00

这些绝对是真正的.Net程序员应该了解的，老赵完全可以就这个话题开一个WebCast讲座

*.*.*.*
链接
RednaxelaFX 2009-12-03 18:40:00

@Jeffrey Zhao
败了……JE貌似不让外连图了。换这个地址：
http://rednaxelafx.javaeye.com/picture/50531

admin
链接
老赵 2009-12-03 18:56:00

@RednaxelaFX
嗯？这是啥意思呀？

*.*.*.*
链接
Ivony... 2009-12-03 19:06:00

Jeffrey Zhao：
@RednaxelaFX
嗯？这是啥意思呀？

那是Append方法的依赖树，String.Concat不在这棵树上，也就是说即使没有String.Concat，也不会影响StringBuilder.Append方法的执行。

当然，这是只考虑IL的前提下。

admin
链接
老赵 2009-12-03 19:12:00

@Ivony...
但这只是Append(string)方法亚。
我刚才是说，会不会是Append的其它重载，例如Append(bool)，先用了String.Concat，然后最后调用了Append(string)……

*.*.*.*
链接
RednaxelaFX 2009-12-03 20:33:00

@Jeffrey Zhao
String.Concat()是managed的方法，基本上BCL里的方法进到native一侧之后不是callback都不会调回到managed的一侧……
那看这个，StringBuilder.Append(Int32)的：
http://rednaxelafx.javaeye.com/picture/50535
只展开了依赖树上返回类型为String或者StringBuilder的方法。这棵树上其它方法也没找到String.Concat()……

还是想看看pixysoft当时的stack trace，肯定能带来点启发的～

admin
链接
老赵 2009-12-03 20:50:00

@RednaxelaFX
我想到一种可能性，回家写文章，hmmm……

*.*.*.*
链接
Ivony... 2009-12-03 20:50:00

RednaxelaFX：
@Jeffrey Zhao
String.Concat()是managed的方法，基本上BCL里的方法进到native一侧之后不是callback都不会调回到managed的一侧……
那看这个，StringBuilder.Append(Int32)的：
http://rednaxelafx.javaeye.com/picture/50535
只展开了依赖树上返回类型为String或者StringBuilder的方法。这棵树上其它方法也没找到String.Concat()……

还是想看看pixysoft当时的stack trace，肯定能带来点启发的～

这个现象应该还是很简单能重现的。
举一个简单的例子，比如说有个类型的ToString里面调用了String.Concat，用这个类型调用StringBuilder.Append( object )方法就可以了。。。。。

当然我不知道pixysoft他所遇到的情况是怎样，只是说要造成这种现象还是挺简单。

admin
链接
老赵 2009-12-03 20:54:00

@Ivony...
好吧，被抢了……但是我还要写……
其实就是调用StringBuilder.Append(object)，然后在这个object的ToString()里连接两个非string对象，然后编译器会用String.Concat(object,object)进行连接，如果此时其中某个object的ToString再抛出异常，这样call stack里便是Append里的Concat里异常了……

*.*.*.*
链接
RednaxelaFX 2009-12-03 21:05:00

@Jeffrey Zhao
@Ivony...
嗯，你们说得没错。ToString()是个大洞……

*.*.*.*
链接
tianxd 2009-12-19 23:21:00

下还没出来？

*.*.*.*
链接
菜鸟毛 2009-12-22 17:33:00

各位大哥,看您们谈了这么多关于性能的问题,下次希望能看到数据到对像的性能优化.

正因为这方面文章不是太多,而很多新人,包括我,之前也是追求对象的性能,例如,string与StringBuilder,而忽视了数据到对象之个过程的性能.走了很多弯路,也吃了不少大亏啊.

老赵,指点一下吧.

admin
链接
老赵 2009-12-22 17:36:00

@菜鸟毛
没听懂，什么叫作数据到对象？还有，一定要我做才行吗？自己为什么不尝试一下呢？

*.*.*.*
链接
菜鸟毛 2009-12-23 17:31:00

不是懒,也不是没做尝试,ORM,数据映射都做过,甚至于自己去写了一层从数据到对象的数据层.作为菜鸟,总是希望得到权威的指引.

我做了很多的项目,回头看看,依然觉得不够完美,甚至觉得以前的都垃圾.唉!

admin
链接
老赵 2009-12-23 17:49:00

@菜鸟毛
那就把你的尝试结果写篇文章出来，大家一起讨论一下。

*.*.*.*
链接
菜鸟毛 2009-12-24 17:01:00

老赵,按您的吩咐,我已经写了第一篇关于数据到对象的性能尝试的,链接在这里.http://www.cnblogs.com/CoreCaiNiao/archive/2009/12/24/1631514.html,各位达人请指教,不对的地方,请批评.

老赵点滴 - 追求编程之美 先做人，再做技术人员，最后做程序员。打造国内最好的.NET技术博客。

重谈字符串连接性能（中）：细节实现

String.Concat为什么这么快

String即Builder

相关文章

40 条回复

乌卡卡 2009-12-03 10:12:00

徐少侠 2009-12-03 10:33:00

木野狐(Neil Chen) 2009-12-03 10:37:00

亚历山大同志 2009-12-03 10:43:00

Ivony... 2009-12-03 10:45:00

老赵 2009-12-03 10:47:00

RednaxelaFX 2009-12-03 10:50:00

装配脑袋 2009-12-03 10:58:00

老赵 2009-12-03 11:03:00

装配脑袋 2009-12-03 11:05:00

老赵 2009-12-03 11:07:00

RednaxelaFX 2009-12-03 11:08:00

Ivony... 2009-12-03 11:16:00

韦恩卑鄙 alias:v-zhewg 2009-12-03 11:53:00

老赵 2009-12-03 12:19:00

Ivony... 2009-12-03 13:49:00

韦恩卑鄙 alias:v-zhewg 2009-12-03 13:54:00

老赵 2009-12-03 14:04:00

Ivony... 2009-12-03 14:28:00

钧梓昊逑 2009-12-03 15:17:00

路过 ........[未注册用户] 2009-12-03 16:29:00

pixysoft[未注册用户] 2009-12-03 17:08:00

RednaxelaFX 2009-12-03 17:22:00

老赵 2009-12-03 17:58:00

小城故事 2009-12-03 18:11:00

RednaxelaFX 2009-12-03 18:40:00

老赵 2009-12-03 18:56:00

Ivony... 2009-12-03 19:06:00

老赵 2009-12-03 19:12:00

RednaxelaFX 2009-12-03 20:33:00

老赵 2009-12-03 20:50:00

Ivony... 2009-12-03 20:50:00

老赵 2009-12-03 20:54:00

RednaxelaFX 2009-12-03 21:05:00

tianxd 2009-12-19 23:21:00

菜鸟毛 2009-12-22 17:33:00

老赵 2009-12-22 17:36:00

菜鸟毛 2009-12-23 17:31:00

老赵 2009-12-23 17:49:00

菜鸟毛 2009-12-24 17:01:00

发表回复

Your Name yyyy-MM-dd HH:mm:ss

About

保持联系

最新随笔

编程语言

存储相关

其他项目

视频资源

推荐内容

随笔档案

随笔分类

英文博客

英文资源

中文博客

中文资源

资源下载

书籍推荐

老赵点滴 - 追求编程之美先做人，再做技术人员，最后做程序员。打造国内最好的.NET技术博客。