Questions tagged «microsoft-word»

2
使用pandoc将.docx转换为.pdf
我正在尝试通过使用pandoc将邮件接收的.docx转换为正确的pdf(我正在使用GNU / Linux)。 我有一个关于字符编码的错误: $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream 我试图识别编码: $ file -i file .docx file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary 我有点惊讶charset=binary(我原以为是charset=iso8859-15)。但是我还是试图将.docx转换为utf8,但它不起作用: $ iconv -t utf-8 file.docx P! $iconv: séquence d'échappement non permise à la position 16 我在pandoc文档的命令行中有相同的错误: iconv -t utf-8 file.docx | pandoc …

1
将.docx文件转换为纯文本并保留换行符以维护对源文档的行号引用:howto和含义?
我正在将MS Word内容导出为纯文本,以便与文本和文件实用程序一起使用。我有一个约束,其中在MS软件中已启用行编号功能,并且最终输出中对行编号的任何引用都必须与该编号匹配。因此输入“编号行”: (EA坡) 显然,对于Word来说,这种编号不会在换行符处打断行,而是在右边距(或其他位置)后打断“行” 。像这样的脚本docx2txt,默认情况下似乎并没有解决这个问题,并在换行符处换行。因此,如果我使用grep -n编号,则行将与源行号功能不匹配,如上所示。从文档中还不清楚,在这种情况下,我将需要如何编辑Perl脚本来转换文件: our $config_newLine = "\n"; # Alternative is "\r\n". our $config_lineWidth = 80; # Line width, used for short line justification. 我尝试替代\n,\r\n但这似乎对我不起作用。因此,我采取了以下设置(在v.2013,64pc上另存为纯文本格式)直接从Word导出文档: Unicode(UTF-8) 用(CR / LF)插入换行符+结束行 允许字符替换 现在的确,当我使用这些.txt文件时,源编号功能中的行号与grep -n输出之间的匹配非常完美。 是否有任何我应该了解的特定配置/过程docx2txt或类似的命令行实用程序,该实用程序可以让我将.docx文件转换为纯文本,同时保留换行符,而无需像以前那样依靠Word? 关于换行符和格式设置,将MS Word文档(可能包含重音符号)导出为纯文本以与文件/文本实用程序一起使用的最佳实践是什么;我为导出选择的设置是否有负面影响,即插入CR / LF? 样品 根据建议,我提供了一个示例。在这个rar 档案中,我将.docx文件与简单的段落捆绑在一起,并将其导出的.txt文件使用Word与上述选项捆绑在一起。可以将后者与docx2txt源文件的默认运行进行比较。

3
用于搜索docx文件的命令行工具
是否有命令行工具可对docx文件进行文本搜索?我试过了grep,但是即使它与txt和xml文件都可以正常工作,但它不适用于docx。我可以先将docx转换为txt,但是我更喜欢直接在docx文件上运行的工具。我需要该工具才能在Cygwin下工作。 OP编辑:后来我发现,实现grep的最简单方法实际上是将这些docx转换为txt,然后通过grep对其进行转换。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.