Unix & Linux microsoft-word

2

我正在尝试通过使用pandoc将邮件接收的.docx转换为正确的pdf（我正在使用GNU / Linux）。我有一个关于字符编码的错误： $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream 我试图识别编码： $ file -i file .docx file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary 我有点惊讶charset=binary（我原以为是charset=iso8859-15）。但是我还是试图将.docx转换为utf8，但它不起作用： $ iconv -t utf-8 file.docx P! $iconv: séquence d'échappement non permise à la position 16 我在pandoc文档的命令行中有相同的错误： iconv -t utf-8 file.docx | pandoc …

19 character-encoding pandoc microsoft-word

1

将.docx文件转换为纯文本并保留换行符以维护对源文档的行号引用：howto和含义？

我正在将MS Word内容导出为纯文本，以便与文本和文件实用程序一起使用。我有一个约束，其中在MS软件中已启用行编号功能，并且最终输出中对行编号的任何引用都必须与该编号匹配。因此输入“编号行”：（EA坡）显然，对于Word来说，这种编号不会在换行符处打断行，而是在右边距（或其他位置）后打断“行” 。像这样的脚本docx2txt，默认情况下似乎并没有解决这个问题，并在换行符处换行。因此，如果我使用grep -n编号，则行将与源行号功能不匹配，如上所示。从文档中还不清楚，在这种情况下，我将需要如何编辑Perl脚本来转换文件： our $config_newLine = "\n"; # Alternative is "\r\n". our $config_lineWidth = 80; # Line width, used for short line justification. 我尝试替代\n，\r\n但这似乎对我不起作用。因此，我采取了以下设置（在v.2013,64pc上另存为纯文本格式）直接从Word导出文档： Unicode（UTF-8）用（CR / LF）插入换行符+结束行允许字符替换现在的确，当我使用这些.txt文件时，源编号功能中的行号与grep -n输出之间的匹配非常完美。是否有任何我应该了解的特定配置/过程docx2txt或类似的命令行实用程序，该实用程序可以让我将.docx文件转换为纯文本，同时保留换行符，而无需像以前那样依靠Word？关于换行符和格式设置，将MS Word文档（可能包含重音符号）导出为纯文本以与文件/文本实用程序一起使用的最佳实践是什么；我为导出选择的设置是否有负面影响，即插入CR / LF？样品根据建议，我提供了一个示例。在这个rar 档案中，我将.docx文件与简单的段落捆绑在一起，并将其导出的.txt文件使用Word与上述选项捆绑在一起。可以将后者与docx2txt源文件的默认运行进行比较。

9 scripting conversion text microsoft-word

3

用于搜索docx文件的命令行工具

是否有命令行工具可对docx文件进行文本搜索？我试过了grep，但是即使它与txt和xml文件都可以正常工作，但它不适用于docx。我可以先将docx转换为txt，但是我更喜欢直接在docx文件上运行的工具。我需要该工具才能在Cygwin下工作。 OP编辑：后来我发现，实现grep的最简单方法实际上是将这些docx转换为txt，然后通过grep对其进行转换。

9 grep search cygwin microsoft-word

Questions tagged «microsoft-word»