4
用于非破坏性地折叠或重新缩进HTML的实用程序
我有一个脚本,它接受来自wget或类似的输入,并使用它搜索关键词grep。(我保证我不会尝试使用正则表达式解析HTML,它只是一种模拟我们在另一个更复杂的产品中的内容检测行为的便捷方式。)这很有效,只要HTML内容不是太严重了。如果是这样,线条会变得非常长(在某些情况下我已经看到超过50 kB),并且grep它们会窒息。 为了解决这个问题,我希望能够折叠或重新缩进HTML,使其分布在更多行上。但是,为了使脚本能够提供准确的结果,我需要能够在不改变内容的情况下执行此操作。这意味着它无法纠正无效或未封闭的标签,并且它必须仅在元素之间折叠,而不是在元素内部折叠。 这两个要求似乎排除了我发现的所有HTML整理或美化实用程序。 是否有任何基于UNIX的shell实用程序,perl / python / ruby模块或类似的东西可以为我做这个? 或者,因为我需要的是在标签之间添加一些新行,有没有办法让我可以半自动地做到这一点?