我正在将MS Word内容导出为纯文本,以便与文本和文件实用程序一起使用。我有一个约束,其中在MS软件中已启用行编号功能,并且最终输出中对行编号的任何引用都必须与该编号匹配。因此输入“编号行”:
(EA坡)
显然,对于Word来说,这种编号不会在换行符处打断行,而是在右边距(或其他位置)后打断“行” 。像这样的脚本docx2txt
,默认情况下似乎并没有解决这个问题,并在换行符处换行。因此,如果我使用grep -n
编号,则行将与源行号功能不匹配,如上所示。从文档中还不清楚,在这种情况下,我将需要如何编辑Perl脚本来转换文件:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
我尝试替代\n
,\r\n
但这似乎对我不起作用。因此,我采取了以下设置(在v.2013,64pc上另存为纯文本格式)直接从Word导出文档:
- Unicode(UTF-8)
- 用(CR / LF)插入换行符+结束行
- 允许字符替换
现在的确,当我使用这些.txt
文件时,源编号功能中的行号与grep -n
输出之间的匹配非常完美。
- 是否有任何我应该了解的特定配置/过程
docx2txt
或类似的命令行实用程序,该实用程序可以让我将.docx文件转换为纯文本,同时保留换行符,而无需像以前那样依靠Word? - 关于换行符和格式设置,将MS Word文档(可能包含重音符号)导出为纯文本以与文件/文本实用程序一起使用的最佳实践是什么;我为导出选择的设置是否有负面影响,即插入CR / LF?
样品
根据建议,我提供了一个示例。在这个rar 档案中,我将.docx文件与简单的段落捆绑在一起,并将其导出的.txt文件使用Word与上述选项捆绑在一起。可以将后者与docx2txt
源文件的默认运行进行比较。