1
随机播放两个并行文本文件
我有两个句子对齐的并行语料库(文本文件),带有大约5000万个单词。(来自Europarl语料库->法律文件的并行翻译)。我现在想对两个文件的行进行混排,但是两者都以相同的方式进行。我想通过一个唯一的随机源使用gshuf(我在Mac上)来解决这个问题。 gshuf --random-source /path/to/some/random/data file1 gshuf --random-source /path/to/some/random/data file2 但是我收到了错误消息end of file,因为显然随机种子需要包含要排序的文件包含的所有单词。真的吗?如果是,我应该如何创建满足自己需求的随机种子?如果没有,我还可以通过其他什么方式并行地随机分配文件?我考虑过将它们粘贴在一起,随机化然后再分裂。但是,这似乎很难看,因为我首先需要找到文件中没有的定界符。