程序设计 html-content-extraction

30

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 6年前关闭。我正在考虑尝试Beautiful Soup，一个用于HTML抓取的Python包。还有其他我应该查看的HTML抓包工具吗？Python不是必需的，我实际上也对其他语言感兴趣。到目前为止的故事：蟒蛇美丽的汤 xml文件 HTQL cra草机械化红宝石能吉里杏机械化 scrAPI scrubyt！袋熊瓦蒂尔。净 HTML敏捷包瓦丁佩尔 WWW ::机械化网页抓取工具爪哇标签汤 HtmlUnit 网络收割防护 so Jericho HTML解析器的JavaScript 请求欢乐阿图节点马幻影的PHP 古特 htmlSQL PHP简单HTML DOM解析器使用CURL进行PHP爬取猩红查询他们大多数屏幕刮板

406 html web-scraping html-parsing html-content-extraction

30

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中，我希望得到的输出基本上相同。我想要比使用正则表达式更健壮的东西，因为正则表达式可能在格式不正确的HTML上失败。我见过很多人都推荐Beautiful Soup，但使用它时遇到了一些问题。例如，它拾取了不需要的文本，例如JavaScript源。此外，它没有解释HTML实体。例如，我希望＆＃39; 将HTML源代码中的HTML转换为文本中的撇号，就像我将浏览器内容粘贴到记事本中一样。更新 html2text看起来很有希望。它正确处理HTML实体，并忽略JavaScript。但是，它不能完全产生纯文本；它会产生markdown，然后必须将其转换为纯文本。它没有示例或文档，但是代码看起来很干净。相关问题：过滤掉HTML标签并解析python中的实体在Python中将XML / HTML实体转换为Unicode字符串

243 python html text html-content-extraction

8

提取正则表达式匹配项的一部分

我想要一个正则表达式从HTML页面提取标题。目前我有这个： title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 是否有一个正则表达式仅提取<title>的内容，所以我不必删除标签？

130 python html regex html-content-extraction

10

BeautifulSoup抓取可见网页文本

基本上，我想使用BeautifulSoup来严格抓取网页上的可见文本。例如，此网页是我的测试用例。我主要想获取正文文本（文章），甚至在这里和那里甚至几个标签名称。我尝试了这个SO问题中的建议，该建议返回很多<script>我不想要的标签和html注释。我无法弄清楚该函数所需的参数findAll()，以便仅获取网页上的可见文本。那么，我应该如何查找除脚本，注释，CSS等之外的所有可见文本？

124 python text beautifulsoup html-content-extraction

9

在iPhone上解析HTML [关闭]

从目前的情况来看，这个问题不适合我们的问答形式。我们希望答案会得到事实，参考或专业知识的支持，但是这个问题可能会引起辩论，争论，民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出，请访问帮助中心以获取指导。 8年前关闭。谁能推荐C或Objective-C库进行HTML解析？它需要处理无法完全验证的凌乱的HTML代码。这样的库是否存在，还是我最好只是尝试使用正则表达式？

69 iphone html parsing html-content-extraction

3

使用BeautifulSoup查找包含某些文本的HTML标签

我正在尝试获取HTML文档中包含以下文本模式的元素：＃\ S {11} <h2> this is cool #12345678901 </h2> 因此，前者将通过使用以下内容进行匹配： soup('h2',text=re.compile(r' #\S{11}')) 结果将是这样的： [u'blahblah #223409823523', u'thisisinteresting #293845023984'] 我可以获取所有匹配的文本（请参见上面的行）。但是我希望文本的父元素匹配，因此我可以将其用作遍历文档树的起点。在这种情况下，我希望所有h2元素都返回，而不是文本匹配。有想法吗？

69 python regex beautifulsoup html-content-extraction

Questions tagged «html-content-extraction»