Questions tagged «html-content-extraction»

30
HTML抓取的选项?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 6年前关闭。 我正在考虑尝试Beautiful Soup,一个用于HTML抓取的Python包。还有其他我应该查看的HTML抓包工具吗?Python不是必需的,我实际上也对其他语言感兴趣。 到目前为止的故事: 蟒蛇 美丽的汤 xml文件 HTQL cra草 机械化 红宝石 能吉里 杏 机械化 scrAPI scrubyt! 袋熊 瓦蒂尔 。净 HTML敏捷包 瓦丁 佩尔 WWW ::机械化 网页抓取工具 爪哇 标签汤 HtmlUnit 网络收割 防护 so Jericho HTML解析器 的JavaScript 请求 欢乐 阿图 节点马 幻影 的PHP 古特 htmlSQL PHP简单HTML DOM解析器 使用CURL进行PHP爬取 猩红查询 他们大多数 屏幕刮板

30
使用Python从HTML文件中提取文本
我想使用Python从HTML文件中提取文本。如果要从浏览器复制文本并将其粘贴到记事本中,我希望得到的输出基本上相同。 我想要比使用正则表达式更健壮的东西,因为正则表达式可能在格式不正确的HTML上失败。我见过很多人都推荐Beautiful Soup,但使用它时遇到了一些问题。例如,它拾取了不需要的文本,例如JavaScript源。此外,它没有解释HTML实体。例如,我希望' 将HTML源代码中的HTML转换为文本中的撇号,就像我将浏览器内容粘贴到记事本中一样。 更新 html2text看起来很有希望。它正确处理HTML实体,并忽略JavaScript。但是,它不能完全产生纯文本;它会产生markdown,然后必须将其转换为纯文本。它没有示例或文档,但是代码看起来很干净。 相关问题: 过滤掉HTML标签并解析python中的实体 在Python中将XML / HTML实体转换为Unicode字符串

8
提取正则表达式匹配项的一部分
我想要一个正则表达式从HTML页面提取标题。目前我有这个: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 是否有一个正则表达式仅提取<title>的内容,所以我不必删除标签?

10
BeautifulSoup抓取可见网页文本
基本上,我想使用BeautifulSoup来严格抓取网页上的可见文本。例如,此网页是我的测试用例。我主要想获取正文文本(文章),甚至在这里和那里甚至几个标签名称。我尝试了这个SO问题中的建议,该建议返回很多<script>我不想要的标签和html注释。我无法弄清楚该函数所需的参数findAll(),以便仅获取网页上的可见文本。 那么,我应该如何查找除脚本,注释,CSS等之外的所有可见文本?

9
在iPhone上解析HTML [关闭]
从目前的情况来看,这个问题不适合我们的问答形式。我们希望答案会得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 谁能推荐C或Objective-C库进行HTML解析?它需要处理无法完全验证的凌乱的HTML代码。 这样的库是否存在,还是我最好只是尝试使用正则表达式?

3
使用BeautifulSoup查找包含某些文本的HTML标签
我正在尝试获取HTML文档中包含以下文本模式的元素:#\ S {11} <h2> this is cool #12345678901 </h2> 因此,前者将通过使用以下内容进行匹配: soup('h2',text=re.compile(r' #\S{11}')) 结果将是这样的: [u'blahblah #223409823523', u'thisisinteresting #293845023984'] 我可以获取所有匹配的文本(请参见上面的行)。但是我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点。在这种情况下,我希望所有h2元素都返回,而不是文本匹配。 有想法吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.