![]() |
1
55
使用正则表达式从HTML中提取值总是一个错误。HTML语法可能比它第一次出现时复杂得多,而且页面很容易捕捉到一个非常复杂的正则表达式。 HTML Parser 相反另见 What are the pros and cons of the leading Java HTML parsers? |
![]() |
2
21
其他答案都是正确的。Java正则表达式API不是实现目标的合适工具。使用其他答案中提到的高效、安全和经过良好测试的高级工具。 如果您的问题涉及的是Regex API,而不是实际问题(例如学习目的),则可以使用以下代码:
请注意,懒惰/勉强限定符*?必须使用,以便将分组减少为单个标记。组0是整个匹配项,组1是下一个组匹配项(下一对括号)。 |
![]() |
3
7
不要使用正则表达式使用NekoHTML或TagSoup,它们是一个桥梁,提供了访问HTML文档的SAX或DOM方法。 |
![]() |
4
5
因为您只使用锚定标记,所以只使用正则表达式应该是可以的,但是如果您想做更多的事情,可以使用解析器。这个 Mozilla HTML Parser
|
![]() |
5
3
我搜索了正则表达式库( http://regexlib.com/Search.aspx?k=href 和 http://regexlib.com/Search.aspx?k=src ) 我发现最好的是
有关更多表达式,请查看以下链接: http://regexlib.com/REDetails.aspx?regexp_id=2261 http://regexlib.com/REDetails.aspx?regexp_id=758 |
![]() |
6
2
正则表达式只能解析正则语言,这就是它们被调用的原因 有规律的 表达。HTML不是一种正则语言,因此它不能被正则表达式解析。 另一方面,HTML解析器, 可以 解析HTML,这就是为什么它们被称为HTML解析器。 您应该使用您最喜欢的HTML解析器。 |
![]() |
7
1
与流行观点相反,正则表达式是从非结构化文本(即HTML)中提取数据的有用工具。 如果您正在进行复杂的HTML数据提取(例如,查找页面中的所有段落),那么HTML解析可能是一种方法。但是,如果您只需要从HREF获取一些URL,那么正则表达式就可以很好地工作,并且很难破坏它。 试着这样做:
|
![]() |
lonix · 使用sed从JSON中提取非贪婪正则表达式 1 年前 |
![]() |
Dima Malko · 如何在指定符号前添加符号? 2 年前 |
![]() |
shekharsabale · 从列表元素捕获子字符串 2 年前 |
![]() |
Katia · 根据特定规则进行多行匹配 2 年前 |
![]() |
MHA · Pandas str.extract()以字母结尾的数字 2 年前 |
![]() |
Slava Vir · 如何查找后面“/”之间的最后一组 2 年前 |