1
1
不要使用许多不精确的非贪婪的表达,比如
尽量明确:
但正如你所看到的,这是一个混乱。 您最好使用像 DOMDocument . 然后您可以像BrianAgnew建议的那样使用xpath查询元素。这比正则表达式更可靠、更舒适。 |
2
3
正如许多人会/已经指出的那样,使用HTML/XML解析器进行上述分析(如 this one )HTML不是常规的,如果使用正则表达式,则有许多边缘情况需要进行编码。 如果您只想提取文本,那么xpath可能会有所帮助。一种表达式,如:
可能会成功。 |
3
1
尝试:
输出:
|
4
0
否则,对于regexp,可以使用它(使用多行选项):
但是正如@brian agnew所指出的,这并没有XML/HTML解析器那么好…… |
5
0
是不是
它将删除所有标记,只在标记之间保留文本。但它也会去掉属性 在您的情况下,这将导致:
|
6
0
在PHP世界中,有preg-match-all,这使得它比JS容易得多。
测试结果 Preg Tester |
lonix · 使用sed从JSON中提取非贪婪正则表达式 1 年前 |
Dima Malko · 如何在指定符号前添加符号? 2 年前 |
shekharsabale · 从列表元素捕获子字符串 2 年前 |
Katia · 根据特定规则进行多行匹配 2 年前 |
MHA · Pandas str.extract()以字母结尾的数字 2 年前 |
Slava Vir · 如何查找后面“/”之间的最后一组 2 年前 |