将.docx文件转换为纯文本并保留换行符以维护对源文档的行号引用:howto和含义?
我正在将MS Word内容导出为纯文本,以便与文本和文件实用程序一起使用。我有一个约束,其中在MS软件中已启用行编号功能,并且最终输出中对行编号的任何引用都必须与该编号匹配。因此输入“编号行”: (EA坡) 显然,对于Word来说,这种编号不会在换行符处打断行,而是在右边距(或其他位置)后打断“行” 。像这样的脚本docx2txt,默认情况下似乎并没有解决这个问题,并在换行符处换行。因此,如果我使用grep -n编号,则行将与源行号功能不匹配,如上所示。从文档中还不清楚,在这种情况下,我将需要如何编辑Perl脚本来转换文件: our $config_newLine = "\n"; # Alternative is "\r\n". our $config_lineWidth = 80; # Line width, used for short line justification. 我尝试替代\n,\r\n但这似乎对我不起作用。因此,我采取了以下设置(在v.2013,64pc上另存为纯文本格式)直接从Word导出文档: Unicode(UTF-8) 用(CR / LF)插入换行符+结束行 允许字符替换 现在的确,当我使用这些.txt文件时,源编号功能中的行号与grep -n输出之间的匹配非常完美。 是否有任何我应该了解的特定配置/过程docx2txt或类似的命令行实用程序,该实用程序可以让我将.docx文件转换为纯文本,同时保留换行符,而无需像以前那样依靠Word? 关于换行符和格式设置,将MS Word文档(可能包含重音符号)导出为纯文本以与文件/文本实用程序一起使用的最佳实践是什么;我为导出选择的设置是否有负面影响,即插入CR / LF? 样品 根据建议,我提供了一个示例。在这个rar 档案中,我将.docx文件与简单的段落捆绑在一起,并将其导出的.txt文件使用Word与上述选项捆绑在一起。可以将后者与docx2txt源文件的默认运行进行比较。