“查看源代码”-等同于Word文档?


11

有时,Word文档似乎或多或少都处于中断状态,通常是在布局变得非常复杂并且文档已经易手和/或版本数次的情况下。症状可能是,在文档确实应该工作的某个位置按BackspaceEnter键时,什么也没有发生,或者格式化似乎随机地或多或少地适用于自身并进行了重置。我想我们都去过那里。

通常,很难确切地知道出了什么问题,因为在Word的幕后发生的事情是相当不透明的。您可能有一个看起来空的文档,但实际上有关格式化等的基础状态可能非常复杂。

在这些情况下,浏览页面上显示的源代码将很有用;就像您在浏览器中可以执行“ 查看源代码”的方式一样,理想情况下可以直接在源代码中进行编辑,例如使用Latex时的方式。Microsoft Word文档是否有“查看源代码”类型的命令或实用程序?

我的猜测是没有这样的命令,否则我会听说的。如果是这样的话,请问有人在处理Word文档中令人讨厌的“隐藏格式”方面有什么好的方法吗?

我怀疑.doc和.docx格式可能会有一些差异;我对这两种情况都感兴趣。

Answers:


11

如果格式化是您最感兴趣的,那么Word确实具有检查应用于文本和对象的所有类型的格式化功能,称为“ 显示格式”。在Word 2007和2010中,此面板的快捷方式是Shift+ F1

在此处输入图片说明

否则,如果您希望对文档格式有更深入的了解,则可以查看DOCX文件的XML。

  1. 在磁盘上找到您的DOCX文档。
  2. 将文档的扩展名从.docx更改为.zip。
  3. 双击文件,然后在默认存档管理器中将其打开。
  4. 导航到zip程序中的“ Word”文件夹,然后打开 Document.xml。这是构成大部分文档内容的背后的代码,尽管其他文件也以其他方式(例如,样式或字体信息)使用。

您肯定会需要一个不错的XML编辑器来查看数据,即使这样,它也非常复杂,并且对于大型文档而言,它将非常长。

对于DOC,没有简单的方法可以“查看源代码”,因为它是由单独的流组成的二进制文件,因此,没有简单的方法可以查看内容。


那很方便,我不知道。遗憾的是,您无法对.doc文件执行相同的操作,因为这是我公司仍然使用的方法。谢谢您的解释!
Godsmith

1
@Godsmith您可以使用较新版本的Word将DOC保存为DOCX,然后进行任何更改后再返回DOC。在此过程中会损失格式,因此请小心,但是您可能会发现可以通过在DOCX中进行更改或解决DOC类型中的问题。
ThisClark 2015年

您还可以在MS Word中直接将任何文件另存为html。另外,您也可以另存为RTF并以文本形式打开RTF文件
phuclv

3

我猜.doc格式很难,所以在这里我帮不上忙。但是,.docx实际上是一个zip文件,所有详细信息都存储在XML文件中。因此,将文件重命名为.zip并查看源代码!


0

当涉及到* .doc之类的二进制格式时,事情就比较棘手。您可以使用LibreOffice的mso-dumper。只需将解决方案克隆到本地计算机并运行

python doc-dump.py \path\to\file.doc >output.xml

现在,二进制文件中的所有内容都将以Word(.doc)二进制文件格式中描述的确切格式转换为xml。

还有WordFileDump,它更简单,但不如mso- dumper强大

不幸的是,这些仅用于分析结构,没有工具将xml输出重新组合回* .doc文件,因此一旦找到根本原因,就必须使用Word对其进行编辑。因此,转换为* .docx会更容易,检查* .docx文件,然后在必要时转换回* .doc

或者,您也可以将文件另存为rtf,这是“人类可读”的文本文件,而不是office xml。或者将Word文件另存为html

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.