Answers:
您无法使用正则表达式解析[X] HTML。因为正则表达式无法解析HTML。正则表达式不是可用于正确解析HTML的工具。正如我之前在这里多次回答HTML和Regex问题一样,使用正则表达式将不允许您使用HTML。正则表达式是一种工具,不够复杂,无法理解HTML所采用的结构。HTML不是常规语言,因此无法通过常规表达式进行解析。正则表达式查询无法将HTML分解为有意义的部分。有很多次了,但是没有得到我。甚至Perl使用的增强的不规则正则表达式也无法完成HTML解析任务。你永远不会让我崩溃。HTML是一种足够复杂的语言,无法通过正则表达式进行解析。甚至Jon Skeet也无法使用正则表达式解析HTML。每次您尝试使用正则表达式解析HTML时,这个邪恶的孩子都会哭泣处女之血,俄罗斯黑客将您的Web应用程序伪造。用正则表达式解析HTML会使灵魂陷入生活领域。HTML和正则表达式可以像爱情,婚姻和仪式杀婴一样一起使用。<center>不能容纳为时已晚。正则表达式和HTML共同作用于同一个概念空间中,将像太多水腻子一样破坏您的思维。如果您使用正则表达式解析HTML,那么您就是在屈服于他们及其亵渎神明的方式,这使我们所有人都为不愿在基本多语言平面中表达其名字的人付出辛劳。HTML + regexp将在您观察的同时液化知觉的神经,使您的心灵在恐怖的冲击中枯萎。为时已晚,为时已晚,我们无法挽救孩子的混乱,确保正则表达式会消耗掉所有活组织(除了HTML,如先前所言,它不能这样做)亲爱的上帝帮助我们,任何人都可以使用正则表达式来解析这种祸害 HTML 使用rege x作为处理HTML的工具,将人类注定了永恒的酷刑和安全漏洞,在这个世界和腐败实体(例如SGML实体,但更腐败)的可怕领域之间建立了断层,这仅仅是一瞥。 reg的世界前解析器HTML将插件 tantly运输AP rogrammer的意识我 n要AW ORL人的不断尖叫d,他来了,可恶SL ithy正则表达式感染WIL 升吞噬你的HT ML解析器,应用和存在的Visual Basic一样,所有的时间只有更糟,他谈到他命令 ES 没有网络连接 GHT ^ h E排,喜小号邪恶的光采德stro҉ying所有的启蒙运动,HTML标记泄漏fr̶ǫm玩吧眼睛像LIQ UID p AlN,定期EXP重的歌曲裂变解析将EXTI nguish的铁道部的声音从SP TAL的人在这里我可以看到它,你可以看到它是美丽的牛逼,他˚F inal snuf
Fing头Ø F中的谎言的男人一切都失去了A的 LL我SLOST日è小马才想起小号他命令他共同ES 我式T 他 ICH或permeat ES人 L我FAC Ë我的脸ᵒh神ň □否野应 o在 Θ停止牛逼,他的*̶͑̾̾GL ES ͎a̧͈͖r̽̾̈́͒͑e
ñ OT真实ZA̡͊͠͝LGΌISͮ҉̯͈͕̹̘Ť O͇̹̺Ɲ̴ȳ̳TH ËPO NYH̸̡̪̯ͨ͊̽̅̾Ȩ̶̧̨̬̩̹̭̯̾͛ͪ̈ͧ̾ͬ͘C̷̙̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝ š
您是否尝试过使用XML解析器?
主持人的话
该帖子已被锁定,以防止对其内容进行不适当的编辑。该帖子看起来与预期的完全一样-内容没有问题。请不要标记它以引起我们的注意。
虽然只有正则表达式的任意 HTML是不可能的,但有时使用它们来解析一组有限的已知 HTML 是适当的。
如果您想从一小组HTML页面中抓取数据,然后将其填充到数据库中,则正则表达式可能会正常工作。例如,我最近想获得我从议会网站上获得的澳大利亚联邦代表的姓名,政党和地区。这是一项有限的一次性工作。
正则表达式对我来说效果很好,并且安装起来非常快。
&foo;
编码和CDATA
部分之间切换?使用HTML缩小程序删除浏览器无法呈现的文档中的所有空格?XML解析器将不在乎,编写良好的XPath语句也将不在乎。另一方面,基于正则表达式的“解析器” ...
<font>
:没有可帮助导航DOM的类或ID。经过一整天的“正确”方法的努力后,我终于切换到正则表达式解决方案,并使其在一个小时内正常工作。
我认为这里的缺陷是HTML是Chomsky Type 2语法(无上下文语法),而RegEx是Chomsky Type 3语法(常规语法)。由于类型2语法从根本上比类型3语法复杂(请参阅Chomsky层次结构),因此从数学上讲,无法使用RegEx解析XML。
但是许多人会尝试,有些甚至会声称成功-但直到其他人发现错误并将您完全搞砸为止。
A -> s A e
)。(X)HTML 在开始标记内没有此属性:开始标记不能包含其他开始标记。OP尝试解析的子集不是CFG。
不要听这些家伙。如果将任务分解成较小的部分,则可以使用regex 完全解析上下文无关的语法。您可以使用按顺序执行每个脚本的脚本来生成正确的模式:
我本人还没有完成最后一部分,但是我知道我已经接近了。CthulhuRlyehWgahnaglFhtagnException
由于某种原因,它总是抛出s,因此我将其移植到VB 6并使用On Error Resume Next
。一旦调查了刚刚在墙上打开的这扇奇怪的门,我将更新代码。嗯
PS Pierre de Fermat也想出了办法,但是他所写的利润不足以编写代码。
免责声明:如果有选择,请使用解析器。那个...
这是我使用(!)来匹配HTML标签的正则表达式:
<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>
可能并不完美,但是我通过许多 HTML 来运行此代码。请注意,它甚至会捕获<a name="badgenerator"">
显示在Web上的奇怪内容。
我想使它与自包含标签不匹配,您要么想使用Kobi的否定式外观:
<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+(?<!/\s*)>
或仅合并是否合并。
致下降投票者:这是来自实际产品的有效代码。我怀疑任何阅读此页面的人都会给人一种印象,即在HTML上使用正则表达式在社会上是可以接受的。
警告:我应该注意到,在存在CDATA块,注释以及脚本和样式元素的情况下,此正则表达式仍会分解。好消息是,您可以摆脱使用正则表达式的那些东西。
<!doctype html><title><</title>
。简单的'<!doctype html><title><</title>'.match(/<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>/g)
回报["<!doctype html>", "<title>", "<</title>"]
而应该["<title>", "</title>"]
。
有人会告诉你地球是圆形的(或者,如果他们想使用奇怪的单词,也许地球是扁球体)。他们在撒谎。
有人会告诉你正则表达式不应该是递归的。他们限制了你。他们需要征服您,并且通过让您保持愚昧来做到这一点。
您可以生活在现实中,也可以服用红色药丸。
像元帅勋爵(他是元帅.NET类的亲戚吗?)一样,我已经看到了基于Underverse Stack的Regex-Verse,并且返回了无法想象的能力知识。是的,我认为有一个或两个老人在保护他们,但是他们正在电视上看足球,所以这并不困难。
我认为XML情况很简单。RegEx(使用.NET语法)在base64中进行了压缩和编码,以使您更容易理解,这应该是这样的:
7L0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28
995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8itn6Po9/3eIue3+Px7/3F
86enJ8+/fHn64ujx7/t7vFuUd/Dx65fHJ6dHW9/7fd/t7fy+73Ye0v+f0v+Pv//JnTvureM3b169
OP7i9Ogyr5uiWt746u+BBqc/8dXx86PP7tzU9mfQ9tWrL18d3UGnW/z7nZ9htH/y9NXrsy9fvPjq
i5/46ss3p4z+x3e8b452f9/x93a2HxIkH44PpgeFyPD6lMAEHUdbcn8ffTP9fdTrz/8rBPCe05Iv
p9WsWF788Obl9MXJl0/PXnwONLozY747+t7x9k9l2z/4vv4kqo1//993+/vf2kC5HtwNcxXH4aOf
LRw2z9/v8WEz2LTZcpaV1TL/4c3h66ex2Xv95vjF0+PnX744PbrOm59ZVhso5UHYME/dfj768H7e
Yy5uQUydDAH9+/4eR11wHbqdfPnFF6cv3ogq/V23t++4z4620A13cSzd7O1s/77rpw+ePft916c7
O/jj2bNnT7e/t/397//M9+ibA/7s6ZNnz76PP0/kT2rz/Ts/s/0NArvziYxVEZWxbm93xsrUfnlm
rASN7Hf93u/97vvf+2Lx/e89L7+/FSXiz4Bkd/hF5mVq9Yik7fcncft9350QCu+efkr/P6BfntEv
z+iX9c4eBrFz7wEwpB9P+d9n9MfuM3yzt7Nzss0/nuJfbra3e4BvZFR7z07pj3s7O7uWJM8eCkme
nuCPp88MfW6kDeH7+26PSTX8vu+ePAAiO4LVp4zIPWC1t7O/8/+pMX3rzo2KhL7+8s23T1/RhP0e
vyvm8HbsdmPXYDVhtpdnAzJ1k1jeufOtUAM8ffP06Zcnb36fl6dPXh2f/F6nRvruyHfMd9rgJp0Y
gvsRx/6/ZUzfCtX4e5hTndGzp5jQo9e/z+s3p1/czAUMlts+P3tz+uo4tISd745uJxvb3/v4ZlWs
mrjfd9SG/swGPD/6+nh+9MF4brTBRmh1Tl5+9eT52ckt5oR0xldPzp7GR8pfuXf5PWJv4nJIwvbH
W3c+GY3vPvrs9zj8Xb/147/n7/b7/+52DD2gsSH8zGDvH9+i9/fu/PftTfTXYf5hB+9H7P1BeG52
MTtu4S2cTAjDizevv3ry+vSNb8N+3+/1po2anj4/hZsGt3TY4GmjYbEKDJ62/pHB+3/LmL62wdsU
1J18+eINzTJr3dMvXr75fX7m+MXvY9XxF2e/9+nTgPu2bgwh5U0f7u/74y9Pnh6/OX4PlA2UlwTn
xenJG8L996VhbP3++PCrV68QkrjveITxr2TIt+lL+f3k22fPn/6I6f/fMqZvqXN/K4Xps6sazUGZ
GeQlar49xEvajzI35VRevDl78/sc/b7f6jkG8Va/x52N4L9lBe/kZSh1hr9fPj19+ebbR4AifyuY
12efv5CgGh9TroR6Pj2l748iYxYgN8Z7pr0HzRLg66FnRvcjUft/45i+pRP08vTV6TOe2N/9jv37
R9P0/5YxbXQDeK5E9R12XdDA/4zop+/9Ht/65PtsDVlBBUqko986WsDoWqvbPD2gH/T01DAC1NVn
3/uZ0feZ+T77fd/GVMkA4KjeMcg6RcvQLRl8HyPaWVStdv17PwHV0bOB9xUh7rfMp5Zu3icBJp25
D6f0NhayHyfI3HXHY6YYCw7Pz17fEFhQKzS6ZWChrX+kUf7fMqavHViEPPKjCf1/y5hukcyPTvjP
mHQCppRDN4nbVFPaT8+ekpV5/TP8g/79mVPo77PT1/LL7/MzL7548+XvdfritflFY00fxIsvSQPS
mvctdYZpbt7vxKRfj3018OvC/hEf/79lTBvM3debWj+b8KO0wP+3OeM2aYHumuCAGonmCrxw9cVX
X1C2d4P+uSU7eoBUMzI3/f9udjbYl/el04dI7s8fan8dWRjm6gFx+NrKeFP+WX0CxBdPT58df/X8
DaWLX53+xFdnr06f/szv++NnX7x8fnb6NAhIwsbPkPS7iSUQAFETvP2Tx8+/Og0Xt/yBvDn9vd/c
etno8S+81QKXptq/ffzKZFZ+4e/743e8zxino+8RX37/k595h5/H28+y7fPv490hQdJ349E+txB3
zPZ5J/jsR8bs/y1j2hh/2fkayOqEmYcej0cXUWMN7QrqBwjDrVZRfyQM3xjj/EgYvo4wfLTZrnVS
ebdKq0XSZJvzajKQDUv1/P3NwbEP7cN5+Odivv9/ysPfhHfkOP6b9Fl+91v7LD9aCvp/+Zi+7lLQ
j0zwNzYFP+/Y6r1NcFeDbfBIo8rug3zS3/3WPumPlN3/y8f0I2X3cz4FP+/Y6htSdr2I42fEuSPX
/ewpL4e9/n1evzn94hb+Plpw2+dnbyh79zx0CsPvbq0lb+UQ/h7xvqPq/Gc24PnR18fzVrp8I57d
mehj7ebk5VdPnp+d3GJOSP189eTsaXyk/JV7l98j4SAZgRxtf7x155PR+O6jz36Pw9/1Wz/+e/5u
v//vbsfQAxobws8M9v7xLXp/785/395ED4nO1wx5fsTeH4LnRva+eYY8rpZUBFb/j/jfm8XAvfEj
4/b/ljF1F9B/jx5PhAkp1nu/+y3n+kdZp/93jWmjJ/M11TG++VEG6puZn593PPejoOyHMQU/79jq
GwrKfpSB+tmcwZ93XPkjZffDmIKfd2z1DSm7bmCoPPmjBNT74XkrVf71I/Sf6wTU7XJA4RB+lIC6
mW1+xN5GWw1/683C5rnj/m364cmr45Pf6/SN9H4Us4LISn355vjN2ZcvtDGT6fHvapJcMISmxc0K
MAD4IyP6/5Yx/SwkP360FvD1VTH191mURr/HUY+2P3I9boPnz7Ju/pHrcWPnP3I9/r/L3sN0v52z
0fEgNrgbL8/Evfh9fw/q5Xf93u/97vvf+2Lx/e89L7+/Fe3iZ37f34P5h178kTfx/5YxfUs8vY26
7/d4/OWbb5++ogn7PX5XzOHtOP3GrsHmqobOVO/8Hh1Gk/TPl198QS6w+rLb23fcZ0fMaTfjsv29
7Zul7me2v0FgRoYVURnf9nZEkDD+H2VDf8hjeq8xff1s6GbButNLacEtefHm9VdPXp++CRTw7/v9
r6vW8b9eJ0+/PIHzs1HHdyKE/x9L4Y+s2f+PJPX/1dbsJn3wrY6wiqv85vjVm9Pnp+DgN8efM5va
j794+eb36Xz3mAf5+58+f3r68s230dRvJcxKn/l//oh3f+7H9K2O0r05PXf85s2rH83f/1vGdAvd
w+qBFqsoWvzspozD77EpXYeZ7yzdfxy0ec+l+8e/8FbR84+Wd78xbvn/qQQMz/J7L++GPB7N0MQa
2vTMBwjDrVI0PxKGb4xxfiQMX0cYPuq/Fbx2C1sU8yEF+F34iNsx1xOGa9t6l/yX70uqmxu+qBGm
AxlxWwVS11O97ULqlsFIUvUnT4/fHIuL//3f9/t9J39Y9m8W/Tuc296yUeX/b0PiHwUeP1801Y8C
j/9vz9+PAo8f+Vq35Jb/n0rAz7Kv9aPA40fC8P+RMf3sC8PP08DjR1L3DXHoj6SuIz/CCghZNZb8
fb/Hf/2+37tjvuBY9vu3jmRvxNeGgQAuaAF6Pwj8/+e66M8/7rwpRNj6uVwXZRl52k0n3FVl95Q+
+fz0KSu73/dtkGDYdvZgSP5uskadrtViRKyal2IKAiQfiW+FI+tET/9/Txj9SFf8SFf8rOuKzagx
+r/vD34mUADO1P4/AQAA//8=
设置的选项是RegexOptions.ExplicitCapture
。您正在寻找的捕获组是ELEMENTNAME
。如果捕获组ERROR
不为空,则存在解析错误,并且正则表达式停止。
如果您在将其转换为可读的正则表达式时遇到问题,这应该会有所帮助:
static string FromBase64(string str)
{
byte[] byteArray = Convert.FromBase64String(str);
using (var msIn = new MemoryStream(byteArray))
using (var msOut = new MemoryStream()) {
using (var ds = new DeflateStream(msIn, CompressionMode.Decompress)) {
ds.CopyTo(msOut);
}
return Encoding.UTF8.GetString(msOut.ToArray());
}
}
如果您不确定,不,我不是在开玩笑(但也许我在撒谎)。它将起作用。我已经建立了大量的单元测试来对其进行测试,甚至我已经使用了(部分)一致性测试。它是一个标记器,而不是成熟的解析器,因此它将仅将XML拆分为其组件标记。它不会解析/集成DTD。
哦...如果您想要正则表达式的源代码,请使用一些辅助方法:
我同意解析XML 特别是HTML的正确工具是解析器,而不是正则表达式引擎。但是,就像其他人指出的那样,有时使用正则表达式会更快,更容易,并且如果您知道数据格式,则可以完成工作。
Microsoft实际上在.NET Framework中有一节有关正则表达式的最佳实践,并专门讨论了考虑输入源。
正则表达式确实有局限性,但是您是否考虑了以下内容?
.NET框架在正则表达式方面是唯一的,因为它支持平衡组定义。
因此,我相信您可以使用正则表达式解析XML。但是请注意,它必须是有效的XML(浏览器对HTML的理解非常宽容,并且HTML中允许使用错误的XML语法)。这是可能的,因为“平衡组定义”将允许正则表达式引擎充当PDA。
引用上面引用的第1条:
.NET正则表达式引擎
如上所述,不能通过正则表达式描述适当平衡的构造。但是,.NET正则表达式引擎提供了一些允许识别平衡结构的结构。
(?<group>)
-使用名称组将捕获的结果压入捕获堆栈。(?<-group>)
-从捕获堆栈中弹出名称组最高的捕获。(?(group)yes|no)
-如果存在名称为group的组,则匹配yes,否则不匹配。这些构造允许.NET正则表达式通过本质上允许堆栈操作的简单版本(即push,pop和empty)来模拟受限PDA。简单的操作分别相当于递增,递减和与零比较。这使.NET正则表达式引擎可以识别上下文无关语言的子集,尤其是那些只需要简单计数器的语言。反过来,这允许非传统的.NET正则表达式识别各个适当平衡的构造。
考虑以下正则表达式:
(?=<ul\s+id="matchMe"\s+type="square"\s*>)
(?>
<!-- .*? --> |
<[^>]*/> |
(?<opentag><(?!/)[^>]*[^/]>) |
(?<-opentag></[^>]*[^/]>) |
[^<>]*
)*
(?(opentag)(?!))
使用标志:
(?=<ul\s+id="matchMe"\s+type="square"\s*>) # match start with <ul id="matchMe"...
(?> # atomic group / don't backtrack (faster)
<!-- .*? --> | # match xml / html comment
<[^>]*/> | # self closing tag
(?<opentag><(?!/)[^>]*[^/]>) | # push opening xml tag
(?<-opentag></[^>]*[^/]>) | # pop closing xml tag
[^<>]* # something between tags
)* # match as many xml tags as possible
(?(opentag)(?!)) # ensure no 'opentag' groups are on stack
您可以在A Better .NET正则表达式测试器中尝试此操作。
我使用了以下示例资源:
<html>
<body>
<div>
<br />
<ul id="matchMe" type="square">
<li>stuff...</li>
<li>more stuff</li>
<li>
<div>
<span>still more</span>
<ul>
<li>Another >ul<, oh my!</li>
<li>...</li>
</ul>
</div>
</li>
</ul>
</div>
</body>
</html>
找到匹配项:
<ul id="matchMe" type="square">
<li>stuff...</li>
<li>more stuff</li>
<li>
<div>
<span>still more</span>
<ul>
<li>Another >ul<, oh my!</li>
<li>...</li>
</ul>
</div>
</li>
</ul>
虽然实际上是这样出来的:
<ul id="matchMe" type="square"> <li>stuff...</li> <li>more stuff</li> <li> <div> <span>still more</span> <ul> <li>Another >ul<, oh my!</li> <li>...</li> </ul> </div> </li> </ul>
最后,我真的很喜欢Jeff Atwood的文章: 解析HTML Cthulhu Way。有趣的是,它引用了这个问题的答案,目前该问题的投票已超过4k。
System.Text
不属于C#。它是.NET的一部分。
(?=<ul\s*id="matchMe"\s*type="square"\s*>) # match start with <ul id="matchMe"...
)的第一行中,“ <ul”和“ id”之间应为\s+
,而不是\s*
,除非您希望它与<ulid = ...相匹配;)
\s+
而不是\s*
。
<img src="images/pic.jpg" />
/
内部某处对<img src="images/pic.jpg" />
html 失败。
我建议使用QueryPath在PHP中解析XML和HTML。它的语法基本上与jQuery相同,只是在服务器端。
虽然您无法使用正则表达式解析HTML的答案是正确的,但它们不适用于此处。OP只想用正则表达式解析一个HTML标记,而这可以通过正则表达式来完成。
建议的正则表达式是错误的,但是:
<([a-z]+) *[^/]*?>
如果您向正则表达式添加内容,则可以通过回溯将其强制匹配诸如之类的愚蠢内容<a >>
,[^/]
这太宽松了。另请注意,这<space>*[^/]*
是多余的,因为[^/]*
还可匹配空格。
我的建议是
<([a-z]+)[^>]*(?<!/)>
(?<! ... )
(在Perl正则表达式中)负向后移在哪里。它读为“一个<,然后是一个单词,然后是不是>的任何内容,最后一个可能不是/,后跟>”。
请注意,这允许类似<a/ >
(与原始正则表达式一样)的东西,因此,如果您想要更严格的限制,则需要构建一个正则表达式以匹配用空格分隔的属性对。
>
字符,它将也无法正常工作。我同意OP什么建议可以用正则表达式来完成,但是这里介绍的是一个远简单化。
尝试:
<([^\s]+)(\s[^>]*?)?(?<!/)>
它与您的相似,但是最后一个>
不能在斜杠之后,并且也可以接受h1
。
>
符号已正确转义为&gt;。
>
在属性值中有效。实际上,在“规范XML”序列化中,您不能使用>
。(除了强调>
属性值根本不是一件不寻常的事情,这并不完全相关。)
<div title="this tag is a <div></div>">hello</div>
中国古代的战略家,一般哲学家孙子说:
据说,如果您认识自己的敌人并认识自己,那么您就可以赢得一百场战斗,而不会遭受任何损失。如果您只了解自己而不是对手,那么您可能会赢或输。如果您既不认识自己,也不认识敌人,那么您将永远危害自己。
在这种情况下,您的敌人是HTML,而您本人或正则表达式。您甚至可能是使用不规则正则表达式的Perl。懂HTML。认识你自己。
我编写了一个描述HTML本质的句。
HTML has
complexity exceeding
regular language.
我还撰写了一个hai句,描述了Perl中正则表达式的性质。
The regex you seek
is defined within the phrase
<([a-zA-Z]+)(?:[^>]*[^/]*)?>
<?php
$selfClosing = explode(',', 'area,base,basefont,br,col,frame,hr,img,input,isindex,link,meta,param,embed');
$html = '
<p><a href="#">foo</a></p>
<hr/>
<br/>
<div>name</div>';
$dom = new DOMDocument();
$dom->loadHTML($html);
$els = $dom->getElementsByTagName('*');
foreach ( $els as $el ) {
$nodeName = strtolower($el->nodeName);
if ( !in_array( $nodeName, $selfClosing ) ) {
var_dump( $nodeName );
}
}
输出:
string(4) "html"
string(4) "body"
string(1) "p"
string(1) "a"
string(3) "div"
基本上,只需定义自动关闭的元素节点名称,将整个html字符串加载到DOM库中,获取所有元素,遍历并过滤掉非自动关闭的元素并对其进行操作。
我确定您现在已经知道不应为此使用正则表达式。
NS
并指定名称空间。
我不知道您对此有确切的需求,但是如果您还使用.NET,则不能使用HTML Agility Pack吗?
摘抄:
这是一个.NET代码库,可让您解析“网络外” HTML文件。该解析器对“真实世界”格式的HTML十分宽容。
W3C以伪正则表达式形式解释了解析:
W3C Link
遵循了var链接QName
,S
以及Attribute
获得更清晰的画面。
基于此,您可以创建一个很好的正则表达式来处理诸如剥离标签之类的事情。
如果您需要使用PHP:
在PHP DOM 功能,除非它是格式正确的XML将无法正常工作。无论它们对全人类的使用有多好。
simplehtmldom很好,但是我发现它有点问题,并且它占用了大量内存[会在大页面上崩溃。]
我从未使用过querypath,因此无法评论其有用性。
另一个可以尝试的是我的DOMParser,它对资源非常少,并且我已经很开心地使用了一段时间。简单易学且功能强大。
对于Python和Java,发布了类似的链接。
对于不满意的人-我仅在XML解析器证明无法承受实际使用时编写类。宗教否决只会阻止发布有用的答案-请使问题保持在问题的角度内。
解决方法如下:
<?php
// here's the pattern:
$pattern = '/<(\w+)(\s+(\w+)\s*\=\s*(\'|")(.*?)\\4\s*)*\s*(\/>|>)/';
// a string to parse:
$string = 'Hello, try clicking <a href="#paragraph">here</a>
<br/>and check out.<hr />
<h2>title</h2>
<a name ="paragraph" rel= "I\'m an anchor"></a>
Fine, <span title=\'highlight the "punch"\'>thanks<span>.
<div class = "clear"></div>
<br>';
// let's get the occurrences:
preg_match_all($pattern, $string, $matches, PREG_PATTERN_ORDER);
// print the result:
print_r($matches[0]);
?>
为了进行深入测试,我输入了如下字符串自动关闭标签:
我还输入了以下标签:
如果您发现上面的概念证明不起作用,我可以分析代码以提高我的技能。
<EDIT> 我忘记了用户的问题是避免解析自动关闭标签。在这种情况下,模式变得更简单了,变成了这样:
$pattern = '/<(\w+)(\s+(\w+)\s*\=\s*(\'|")(.*?)\\4\s*)*\s*>/';
用户@ridgerunner注意到该模式不允许未加引号的属性或没有值的属性。在这种情况下,微调为我们带来了以下模式:
$pattern = '/<(\w+)(\s+(\w+)(\s*\=\s*(\'|"|)(.*?)\\5\s*)?)*\s*>/';
</ EDIT>
如果有人有兴趣了解有关该模式的更多信息,请提供以下内容:
小提示:为了更好地分析此代码,有必要查看生成的源代码,因为我没有提供任何HTML特殊字符转义。
<option selected>
。也不匹配带有未引用属性值(即)的有效标签<p id=10>
。
< a href="http://wtf.org" >
我很确定它是合法的,但是您不匹配它。
每当需要快速从HTML文档中提取内容时,我都会使用Tidy将其转换为XML,然后使用XPath或XSLT来获取所需的内容。您的情况是这样的:
//p/a[@href='foo']
我以前使用过一个名为HTMLParser的开源工具。它旨在以各种方式解析HTML,并且可以很好地达到目的。它可以将HTML解析为不同的treenode,并且您可以轻松地使用其API从节点中获取属性。检查一下,看看是否可以帮到您。
我喜欢用正则表达式解析HTML。我不会尝试解析故意损坏的白痴HTML。这段代码是我的主要解析器(Perl版):
$_ = join "",<STDIN>; tr/\n\r \t/ /s; s/</\n</g; s/>/>\n/g; s/\n ?\n/\n/g;
s/^ ?\n//s; s/ $//s; print
它称为htmlsplit,将HTML分成几行,每行上有一个标记或文本块。然后可以使用其他文本工具和脚本(例如grep,sed,Perl等)进一步处理这些行。我什至不开玩笑:)享受。
如果您希望处理巨大的网页,那么很简单就可以将我的Slurp-Perthing-first-Perl脚本重新调整为不错的流式处理。但这不是真的必要。
我敢打赌我会为此而感到失望。
出乎我的意料,这引起了一些反对,所以我将建议一些更好的正则表达式:
/(<.*?>|[^<]+)\s*/g # get tags and text
/(\w+)="(.*?)"/g # get attibutes
它们对于XML / XHTML很有用。
只需稍作改动,它就可以处理杂乱的HTML ...或先转换HTML-> XHTML。
编写正则表达式的最佳方法是使用Lex / Yacc样式,而不是不透明的单行代码或带有注释的多行怪物。我还没有在这里做;这些人几乎不需要它。
/(\w+)="(.*?)"/
假定双引号。它将丢失单引号中的值。在html版本4和更早的版本中,如果它是一个简单的单词,则允许不带引号的值。
/(\w+)="(.*?)"/
可能会错误地匹配看起来像某个属性中某个属性的文本,例如<img title="Nope down='up' for aussies" src="..." />
。如果在全球范围内应用,它将与普通文本或html注释中的此类内容匹配。
这是一个基于PHP的解析器,它使用一些不合适的正则表达式解析HTML。作为该项目的作者,我可以告诉您可以用正则表达式解析HTML,但是效率不高。如果您需要服务器端解决方案(就像我为wp-Typography WordPress插件所做的那样),则此方法有效。
有两种使用BB代码替换HTML一些漂亮的正则表达式在这里。对于所有反对者,请注意,他并没有完全解析HTML,只是为了对其进行清理。他可能有能力杀死他简单的“解析器”无法理解的标签。
例如:
$store =~ s/http:/http:\/\//gi;
$store =~ s/https:/https:\/\//gi;
$baseurl = $store;
if (!$query->param("ascii")) {
$html =~ s/\s\s+/\n/gi;
$html =~ s/<pre(.*?)>(.*?)<\/pre>/\[code]$2\[\/code]/sgmi;
}
$html =~ s/\n//gi;
$html =~ s/\r\r//gi;
$html =~ s/$baseurl//gi;
$html =~ s/<h[1-7](.*?)>(.*?)<\/h[1-7]>/\n\[b]$2\[\/b]\n/sgmi;
$html =~ s/<p>/\n\n/gi;
$html =~ s/<br(.*?)>/\n/gi;
$html =~ s/<textarea(.*?)>(.*?)<\/textarea>/\[code]$2\[\/code]/sgmi;
$html =~ s/<b>(.*?)<\/b>/\[b]$1\[\/b]/gi;
$html =~ s/<i>(.*?)<\/i>/\[i]$1\[\/i]/gi;
$html =~ s/<u>(.*?)<\/u>/\[u]$1\[\/u]/gi;
$html =~ s/<em>(.*?)<\/em>/\[i]$1\[\/i]/gi;
$html =~ s/<strong>(.*?)<\/strong>/\[b]$1\[\/b]/gi;
$html =~ s/<cite>(.*?)<\/cite>/\[i]$1\[\/i]/gi;
$html =~ s/<font color="(.*?)">(.*?)<\/font>/\[color=$1]$2\[\/color]/sgmi;
$html =~ s/<font color=(.*?)>(.*?)<\/font>/\[color=$1]$2\[\/color]/sgmi;
$html =~ s/<link(.*?)>//gi;
$html =~ s/<li(.*?)>(.*?)<\/li>/\[\*]$2/gi;
$html =~ s/<ul(.*?)>/\[list]/gi;
$html =~ s/<\/ul>/\[\/list]/gi;
$html =~ s/<div>/\n/gi;
$html =~ s/<\/div>/\n/gi;
$html =~ s/<td(.*?)>/ /gi;
$html =~ s/<tr(.*?)>/\n/gi;
$html =~ s/<img(.*?)src="(.*?)"(.*?)>/\[img]$baseurl\/$2\[\/img]/gi;
$html =~ s/<a(.*?)href="(.*?)"(.*?)>(.*?)<\/a>/\[url=$baseurl\/$2]$4\[\/url]/gi;
$html =~ s/\[url=$baseurl\/http:\/\/(.*?)](.*?)\[\/url]/\[url=http:\/\/$1]$2\[\/url]/gi;
$html =~ s/\[img]$baseurl\/http:\/\/(.*?)\[\/img]/\[img]http:\/\/$1\[\/img]/gi;
$html =~ s/<head>(.*?)<\/head>//sgmi;
$html =~ s/<object>(.*?)<\/object>//sgmi;
$html =~ s/<script(.*?)>(.*?)<\/script>//sgmi;
$html =~ s/<style(.*?)>(.*?)<\/style>//sgmi;
$html =~ s/<title>(.*?)<\/title>//sgmi;
$html =~ s/<!--(.*?)-->/\n/sgmi;
$html =~ s/\/\//\//gi;
$html =~ s/http:\//http:\/\//gi;
$html =~ s/https:\//https:\/\//gi;
$html =~ s/<(?:[^>'"]*|(['"]).*?\1)*>//gsi;
$html =~ s/\r\r//gi;
$html =~ s/\[img]\//\[img]/gi;
$html =~ s/\[url=\//\[url=/gi;
关于用于解析(x)HTML的RegExp方法的问题,对于所有谈到某些限制的人的答案是:您没有受过足够的训练来统治这种强大武器的力量,因为NOBODY在这里谈到了递归。
一位与RegExp无关的同事通知了我这个讨论,这肯定不是网络上关于这个古老而又热门话题的第一个讨论。
阅读了一些帖子之后,我要做的第一件事是在该线程中寻找“?R”字符串。第二个是搜索“递归”。
不,圣牛,没有找到匹配的东西。
由于没有人提到解析器所基于的主要机制,所以我很快意识到没人明白这一点。
如果(x)HTML解析器需要递归,则没有递归的RegExp解析器不足以实现此目的。这是一个简单的构造。
RegExp的黑色技巧很难掌握,因此也许在尝试和测试我们的个人解决方案时,有更多的可能性被我们遗漏了,以便用一只手捕获整个网络……嗯,我敢肯定:)
这是魔术图案:
$pattern = "/<([\w]+)([^>]*?)(([\s]*\/>)|(>((([^<]*?|<\!\-\-.*?\-\->)|(?R))*)<\/\\1[\s]*>))/s";
去尝试一下。
它以PHP字符串编写,因此“ s”修饰符使类包含换行符。
这是我在一月份写的PHP手册的示例注释:参考
(请注意,在该注释中,我错误地使用了“ m”修饰符;尽管未使用^或$定位符,但它已被RegExp引擎丢弃,但应将其删除)。
现在,我们可以从更明智的角度谈谈这种方法的局限性:
无论如何,这只是一个RegExp模式,但它揭示了开发许多强大实现的可能性。
我编写了这种模式来增强我在框架中构建的模板引擎的递归下降解析器的性能,无论是在执行时间还是在内存使用方面,其性能都非常好(与使用相同语法的其他模板引擎无关)。
<\s*(\w+)[^/>]*>
零件说明:
<
:起始字符
\s*
:标记名称前可能有空格(难看但可能)。
(\w+)
:标签可以包含字母和数字(h1)。好吧,\w
也匹配“ _”,但是我猜并没有伤害。如果好奇,请改用([a-zA-Z0-9] +)。
[^/>]*
:除了东西>
和/
直至收盘>
>
:关闭 >
对于那些低估正则表达式的人来说,它们仅与正则语言一样强大:
可以将非常规的,甚至不是上下文无关的n ba n ba n与^(a+)b\1b\1$
反引用FTW!
O(MN)
(M为正则表达式长度,N为文本长度)。反向引用是造成这种情况的原因之一。awk中的实现没有反向引用,并且可以在O(MN)
时间内匹配所有内容。
如果您只是想查找这些标签(没有解析的野心),请尝试以下正则表达式:
/<[^/]*?>/g
我在30秒内写下了它,并在这里进行了测试:http: //gskinner.com/RegExr/
它与您提到的标签类型匹配,而忽略了您想忽略的标签类型。
\/>
不是\\>
。
\>
就是我的意思;我从未打算编辑原始帖子的正则表达式。
\/
,因为那样做与要求完全相反。也许我以为您提供的是负过滤模式。
的确,在编程时,处理HTML时通常最好使用专用的解析器和API而不是正则表达式,尤其是在精度至关重要的情况下(例如,如果处理可能会带来安全隐患)。但是,我不认为教条认为XML样式的标记永远不应该使用正则表达式来处理。在某些情况下,正则表达式是完成这项工作的理想工具,例如,在文本编辑器中进行一次性编辑,修复损坏的XML文件或处理看起来像但不完全是XML的文件格式时。有一些问题需要注意,但并非不可克服,甚至不一定是相关的。
<([^>"']|"[^"]*"|'[^']*')*>
在我刚刚提到的情况下,一个简单的正则表达式通常就足够了。考虑到所有因素,这是一个幼稚的解决方案,但是它确实允许>
属性值中使用未编码的符号。如果您要查找的是table
标签,则可以将其修改为</?table\b([^>"']|"[^"]*"|'[^']*')*>
。
只是为了了解更“高级”的HTML正则表达式,以下代码在模拟真实浏览器行为和HTML5解析算法方面做得相当不错:
</?([A-Za-z][^\s>/]*)(?:=\s*(?:"[^"]*"|'[^']*'|[^\s>]+)|[^>])*(?:>|$)
以下内容符合XML标记的相当严格的定义(尽管它不能解决XML名称中允许的完整Unicode字符集):
<(?:([_:A-Z][-.:\w]*)(?:\s+[_:A-Z][-.:\w]*\s*=\s*(?:"[^"]*"|'[^']*'))*\s*/?|/([_:A-Z][-.:\w]*)\s*)>
当然,这些并不能说明周围的环境和一些极端情况,但是即使您确实愿意,也可以处理此类事情(例如,通过在另一个正则表达式的匹配项之间进行搜索)。
在一天结束时,即使是正则表达式,也要使用最合适的工具来完成工作。
尽管为此目的使用正则表达式不适当且无效,但有时正则表达式可以为简单的匹配问题提供快速解决方案,并且在我看来,对于琐碎的工作使用正则表达式并不那么麻烦。