我有很多包含数据记录的文件,存储为以空格分隔的ASCII文件。每条记录都是一个包含数字数据的行,其中一些列为整数,其他列为浮点数。
1 1 5711 4 22280.365035 75.917899 55.485326 4.0260 3.9460 1.7921 11.2400 0.0000 2.6735 54.7331 52.7375
我想根据简单的标准(第2列== 1,第6列> = 53.275等)解析这些数据,并将匹配的记录转储到另一个文件。
每个文件大小约为1GB,对应于~9M记录。目前我有一些逐行运行的MATLAB代码,但这需要很长时间(每个文件约2小时)。我使用MATLAB的唯一原因就是我将在以后处理数据。
如何更有效地解析/处理此问题?是否值得使用“适当”的语言,或者我不太可能看到显着的速度提升?