我有两个句子对齐的并行语料库(文本文件),带有大约5000万个单词。(来自Europarl语料库->法律文件的并行翻译)。我现在想对两个文件的行进行混排,但是两者都以相同的方式进行。我想通过一个唯一的随机源使用gshuf(我在Mac上)来解决这个问题。
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
但是我收到了错误消息end of file
,因为显然随机种子需要包含要排序的文件包含的所有单词。真的吗?如果是,我应该如何创建满足自己需求的随机种子?如果没有,我还可以通过其他什么方式并行地随机分配文件?我考虑过将它们粘贴在一起,随机化然后再分裂。但是,这似乎很难看,因为我首先需要找到文件中没有的定界符。
好吧,无论我想随机化什么,如果我使用/ dev / urandom,我都会很好,对吧?粘贴定界符是一个很好的技巧,谢谢!
—
conipo
random sources
。至于paste
,你可以作为分隔符一些低ASCII字符,这是不太可能在文件中出现使用(像\x02
,\x03
...)。