11
快速读取非常大的表作为数据框
我有非常大的表(3000万行),我想将其作为R中的数据帧加载。 read.table()它具有许多便利的功能,但是似乎实现中有很多逻辑会使事情变慢。就我而言,我假设我提前知道了列的类型,该表不包含任何列标题或行名,并且没有任何我要担心的病理字符。 我知道使用列表读取表scan()可能很快,例如: datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))) 但是我将其转换为数据帧的一些尝试似乎使上述性能降低了6倍: df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))) 有更好的方法吗?还是完全不同的解决方法?