如果在ToLookup之前放一个额外的ToArray会更快吗?


10

我们有一个简短的方法将.csv文件解析为查找:

ILookup<string, DgvItems> ParseCsv( string fileName )
{
    var file = File.ReadAllLines( fileName );
    return file.Skip( 1 ).Select( line => new DgvItems( line ) ).ToLookup( item => item.StocksID );
}

以及DgvItems的定义:

public class DgvItems
{
    public string DealDate { get; }

    public string StocksID { get; }

    public string StockName { get; }

    public string SecBrokerID { get; }

    public string SecBrokerName { get; }

    public double Price { get; }

    public int BuyQty { get; }

    public int CellQty { get; }

    public DgvItems( string line )
    {
        var split = line.Split( ',' );
        DealDate = split[0];
        StocksID = split[1];
        StockName = split[2];
        SecBrokerID = split[3];
        SecBrokerName = split[4];
        Price = double.Parse( split[5] );
        BuyQty = int.Parse( split[6] );
        CellQty = int.Parse( split[7] );
    }
}

而且我们发现,如果我们增加一个额外的ToArray()之前ToLookup()是这样的:

static ILookup<string, DgvItems> ParseCsv( string fileName )
{
    var file = File.ReadAllLines( fileName  );
    return file.Skip( 1 ).Select( line => new DgvItems( line ) ).ToArray().ToLookup( item => item.StocksID );
}

后者明显更快。更具体地说,当使用具有140万行的测试文件时,前者大约需要4.3秒,而后者大约需要3秒。

我希望ToArray()应该花更多的时间,以便后者会稍微慢一些。为什么实际上更快?


额外的信息:

  1. 我们发现此问题的原因是,还有另一种方法可以将同一.csv文件解析为不同的格式,并且大约需要3秒钟,因此我们认为该方法应该能够在3秒钟内完成相同的操作。

  2. 原始数据类型为Dictionary<string, List<DgvItems>>,原始代码未使用linq,结果相似。


BenchmarkDotNet测试类别:

public class TestClass
{
    private readonly string[] Lines;

    public TestClass()
    {
        Lines = File.ReadAllLines( @"D:\20110315_Random.csv" );
    }

    [Benchmark]
    public ILookup<string, DgvItems> First()
    {
        return Lines.Skip( 1 ).Select( line => new DgvItems( line ) ).ToArray().ToLookup( item => item.StocksID );
    }

    [Benchmark]
    public ILookup<string, DgvItems> Second()
    {
        return Lines.Skip( 1 ).Select( line => new DgvItems( line ) ).ToLookup( item => item.StocksID );
    }
}

结果:

| Method |    Mean |    Error |   StdDev |
|------- |--------:|---------:|---------:|
|  First | 2.530 s | 0.0190 s | 0.0178 s |
| Second | 3.620 s | 0.0217 s | 0.0203 s |

我根据原始代码进行了另一个测试。看来问题不在Linq上。

public class TestClass
{
    private readonly string[] Lines;

    public TestClass()
    {
        Lines = File.ReadAllLines( @"D:\20110315_Random.csv" );
    }

    [Benchmark]
    public Dictionary<string, List<DgvItems>> First()
    {
        List<DgvItems> itemList = new List<DgvItems>();
        for ( int i = 1; i < Lines.Length; i++ )
        {
            itemList.Add( new DgvItems( Lines[i] ) );
        }

        Dictionary<string, List<DgvItems>> dictionary = new Dictionary<string, List<DgvItems>>();

        foreach( var item in itemList )
        {
            if( dictionary.TryGetValue( item.StocksID, out var list ) )
            {
                list.Add( item );
            }
            else
            {
                dictionary.Add( item.StocksID, new List<DgvItems>() { item } );
            }
        }

        return dictionary;
    }

    [Benchmark]
    public Dictionary<string, List<DgvItems>> Second()
    {
        Dictionary<string, List<DgvItems>> dictionary = new Dictionary<string, List<DgvItems>>();
        for ( int i = 1; i < Lines.Length; i++ )
        {
            var item = new DgvItems( Lines[i] );

            if ( dictionary.TryGetValue( item.StocksID, out var list ) )
            {
                list.Add( item );
            }
            else
            {
                dictionary.Add( item.StocksID, new List<DgvItems>() { item } );
            }
        }

        return dictionary;
    }
}

结果:

| Method |    Mean |    Error |   StdDev |
|------- |--------:|---------:|---------:|
|  First | 2.470 s | 0.0218 s | 0.0182 s |
| Second | 3.481 s | 0.0260 s | 0.0231 s |

2
我高度怀疑测试代码/测量。请发布用于计算时间的代码
-Erno

1
我的猜测是,如果不使用.ToArray(),则在调用.Select( line => new DgvItems( line ) )之前会返回IEnumerable ToLookup( item => item.StocksID )。而且使用IEnumerable查找特定元素比使用Array更糟糕。转换为数组并执行查找的速度可能比使用枚举数更快。
kimbaudi '19

2
旁注:放var file = File.ReadLines( fileName );- ReadLines而不是ReadAllLines您的代码可能会更快
Dmitry Bychenko '19

2
您应该使用BenchmarkDotnet实际的性能测量。另外,请尝试隔离您要测量的实际代码,并且不要在测试中包括IO。
JohanP

1
我不知道为什么这票选不足-我认为这是一个好问题。
Rufus L

Answers:


2

我设法用下面的简化代码复制了这个问题:

var lookup = Enumerable.Range(0, 2_000_000)
    .Select(i => ( (i % 1000).ToString(), i.ToString() ))
    .ToArray() // +20% speed boost
    .ToLookup(x => x.Item1);

重要的是,创建的元组的成员是字符串。.ToString()从上面的代码中删除两者将消除的优势ToArray。.NET Framework的行为与.NET Core有所不同,因为仅删除第一个.ToString()就消除观察到的差异。

我不知道为什么会这样。


您通过哪个框架来确认这一点?使用.net Framework 4.7.2我看不到任何区别
Magnus

@Magnus .NET Framework 4.8(VS 2019,版本号)
Theodor Zoulias19年

最初,我夸大了观察到的差异。在.NET Core中约为20%,在.NET Framework中约为10%。
Theodor Zoulias

1
不错的复制。我不知道为什么会发生这种情况,也没有时间去弄清楚,但是我的猜测ToArrayToList迫使数据位于连续的内存中。即使在流水线的特定阶段执行此操作,即使这样做会增加成本,也可能导致以后的操作具有较少的处理器高速缓存未命中。处理器高速缓存未命中的代价令人惊讶。
埃里克·利珀特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.