我们有一个简短的方法将.csv文件解析为查找:
ILookup<string, DgvItems> ParseCsv( string fileName )
{
var file = File.ReadAllLines( fileName );
return file.Skip( 1 ).Select( line => new DgvItems( line ) ).ToLookup( item => item.StocksID );
}
以及DgvItems的定义:
public class DgvItems
{
public string DealDate { get; }
public string StocksID { get; }
public string StockName { get; }
public string SecBrokerID { get; }
public string SecBrokerName { get; }
public double Price { get; }
public int BuyQty { get; }
public int CellQty { get; }
public DgvItems( string line )
{
var split = line.Split( ',' );
DealDate = split[0];
StocksID = split[1];
StockName = split[2];
SecBrokerID = split[3];
SecBrokerName = split[4];
Price = double.Parse( split[5] );
BuyQty = int.Parse( split[6] );
CellQty = int.Parse( split[7] );
}
}
而且我们发现,如果我们增加一个额外的ToArray()
之前ToLookup()
是这样的:
static ILookup<string, DgvItems> ParseCsv( string fileName )
{
var file = File.ReadAllLines( fileName );
return file.Skip( 1 ).Select( line => new DgvItems( line ) ).ToArray().ToLookup( item => item.StocksID );
}
后者明显更快。更具体地说,当使用具有140万行的测试文件时,前者大约需要4.3秒,而后者大约需要3秒。
我希望ToArray()
应该花更多的时间,以便后者会稍微慢一些。为什么实际上更快?
额外的信息:
我们发现此问题的原因是,还有另一种方法可以将同一.csv文件解析为不同的格式,并且大约需要3秒钟,因此我们认为该方法应该能够在3秒钟内完成相同的操作。
原始数据类型为
Dictionary<string, List<DgvItems>>
,原始代码未使用linq,结果相似。
BenchmarkDotNet测试类别:
public class TestClass
{
private readonly string[] Lines;
public TestClass()
{
Lines = File.ReadAllLines( @"D:\20110315_Random.csv" );
}
[Benchmark]
public ILookup<string, DgvItems> First()
{
return Lines.Skip( 1 ).Select( line => new DgvItems( line ) ).ToArray().ToLookup( item => item.StocksID );
}
[Benchmark]
public ILookup<string, DgvItems> Second()
{
return Lines.Skip( 1 ).Select( line => new DgvItems( line ) ).ToLookup( item => item.StocksID );
}
}
结果:
| Method | Mean | Error | StdDev |
|------- |--------:|---------:|---------:|
| First | 2.530 s | 0.0190 s | 0.0178 s |
| Second | 3.620 s | 0.0217 s | 0.0203 s |
我根据原始代码进行了另一个测试。看来问题不在Linq上。
public class TestClass
{
private readonly string[] Lines;
public TestClass()
{
Lines = File.ReadAllLines( @"D:\20110315_Random.csv" );
}
[Benchmark]
public Dictionary<string, List<DgvItems>> First()
{
List<DgvItems> itemList = new List<DgvItems>();
for ( int i = 1; i < Lines.Length; i++ )
{
itemList.Add( new DgvItems( Lines[i] ) );
}
Dictionary<string, List<DgvItems>> dictionary = new Dictionary<string, List<DgvItems>>();
foreach( var item in itemList )
{
if( dictionary.TryGetValue( item.StocksID, out var list ) )
{
list.Add( item );
}
else
{
dictionary.Add( item.StocksID, new List<DgvItems>() { item } );
}
}
return dictionary;
}
[Benchmark]
public Dictionary<string, List<DgvItems>> Second()
{
Dictionary<string, List<DgvItems>> dictionary = new Dictionary<string, List<DgvItems>>();
for ( int i = 1; i < Lines.Length; i++ )
{
var item = new DgvItems( Lines[i] );
if ( dictionary.TryGetValue( item.StocksID, out var list ) )
{
list.Add( item );
}
else
{
dictionary.Add( item.StocksID, new List<DgvItems>() { item } );
}
}
return dictionary;
}
}
结果:
| Method | Mean | Error | StdDev |
|------- |--------:|---------:|---------:|
| First | 2.470 s | 0.0218 s | 0.0182 s |
| Second | 3.481 s | 0.0260 s | 0.0231 s |
2
我高度怀疑测试代码/测量。请发布用于计算时间的代码
—
-Erno
我的猜测是,如果不使用
—
kimbaudi '19
.ToArray()
,则在调用.Select( line => new DgvItems( line ) )
之前会返回IEnumerable ToLookup( item => item.StocksID )
。而且使用IEnumerable查找特定元素比使用Array更糟糕。转换为数组并执行查找的速度可能比使用枚举数更快。
旁注:放
—
Dmitry Bychenko '19
var file = File.ReadLines( fileName );
- ReadLines
而不是ReadAllLines
您的代码可能会更快
您应该使用
—
JohanP
BenchmarkDotnet
实际的性能测量。另外,请尝试隔离您要测量的实际代码,并且不要在测试中包括IO。
我不知道为什么这票选不足-我认为这是一个好问题。
—
Rufus L