我有大约3,000个文件,每个300MB,我想用我的16核心服务器尽快搜索它们的一系列子串。
这是我尝试过但它似乎并没有并行搜索文件。
sudo find /mnt2/preprocessed/preprocessed/mo* | sudo xargs awk '/substring/ {c++} END {print c}' | paste -sd+ | bc
它是从不同的方法粘贴在一起的,我不完全理解它。您对我如何分割文件处理有什么建议吗?
1
你可能是I / O,而不是CPU限制。
—
Nicole Hamilton
它是一个高I / O实例(hi1.4xlarge ec2),但你可能是对的。我仍然想知道如何在这种情况下使用GNU parallel但是无法使它工作。
—
kelorek