代码之家 › 专栏 › 技术社区 › Simon

帮助正则表达式刮取网站

regex

Simon · 技术社区 · 14 年前

我需要为以下内容编写一个正则表达式(nb.忽略回车,为了可读性,我添加了它们):

<strong>Contact details</strong>
<p><label>Office:</label>&nbsp;+44 (0)12 3456 7890<br />
<label>Direct:</label>&nbsp;+44 (0)12 3456 7890<br />
<label>Mobile:</label>&nbsp;+44 (0)1234 567890<br />
<label>E-mail:</label>&nbsp;<a href="mailto:you@me.com">you@me.com</a><br />

我正在使用

/([\+\d\(\)\s]+)/

它与数字块匹配,我可以使用和偏移0-2来标识它们。问题是,它也返回了空白,这也破坏了我的补偿。我该怎么说“它必须至少包含一个匹配的数字”?
我也尝试过

/\<label\>Office:\<\/label\>&nbsp;([\+\d\(\)\s]+)\<br \/\>/

但那会回来的

+44 (0)12 3456 7890<br />
<label>Direct:</label>&nbsp;+44 (0)12 3456 7890<br />
<label>Mobile:</label>&nbsp;+44 (0)1234 567890<br />
<label>E-mail:</label>&nbsp;<a href="mailto:you@me.com">you@me.com</a>

1 回复 | 直到 14 年前

codaddict 14 年前

使用regex解析HTML不是一个好主意,而是使用dom-bases解析。

你的正则表达式不起作用,因为它贪婪,使它非贪婪的变化。

([\+\d\(\)\s]+)

到

([\+\d\(\)\s]+?)

阿尔索 + , ( 和 ) 将按字面意思在char类中处理。所以没必要逃避它们:

([+\d()\s]+?)

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前