代码之家 › 专栏 › 技术社区 › Arshdeep

只匹配所有“http”URL,不添加其他字符

screen-scraping regex

Arshdeep · 技术社区 · 14 年前

(http:\/\/.*?)['\"\< \>]


(http:\/\/[-a-zA-Z0-9+&@#\/%?=~_|!:,.;\"]*[-a-zA-Z0-9+&@#\/%=~_|\"])

第一个做得很好,但总是给最后一个额外的字符与匹配的网址。

如:

http://domain.com/path.html" 

http://domain.com/path.html<

通知

" <

3 回复 | 直到 12 年前

Community datashaman 7 年前

['\"\< >] 你比赛的一部分,即:

(http:\/\/.*?)(?=['\"\< >])

ab 比赛 a(?=b) 比赛 a b ).

工具书类

regular-expressions.info/Lookarounds

捕获组选项

并非所有风格都支持lookaround。更广泛的支持是抓捕群体。

(a)b 仍然匹配 ,它还捕获第1组。

工具书类

regular-expressions.info/Round Brackets for Grouping

否定字符类选项

根据需要,经常使用否定字符类比使用不情愿字符类要好得多 .*? (后面是一个lookahead来断言本例中的终止符模式)。

让我们考虑一下匹配“两者之间的一切”的问题 A 和 ZZ

我们使用以下内容作为输入:

eeAiiZooAuuZZeeeZZfff

我们使用3种不同的模式:

A(.*)ZZ AiiZooAuuZZeeeZZ ( as seen on ideone.com )
- 贪婪的 变体;第一组匹配并捕获 iiZooAuuZZeee
A(.*?)ZZ AiiZooAuuZZ ( as seen on ideone.com )
- 这就是 不情愿的 iiZooAuu
A([^Z]*)ZZ AuuZZ ( as seen on ideone.com )
- 这就是 否定字符类 变体;第一组匹配并捕获 uu

         ___n
        /   \              n = negated character class
eeAiiZooAuuZZeeeZZfff      r = reluctant
  \_________/r   /         g = greedy
   \____________/g

工具书类

regular-expressions.info/Character Class 和 Repetition: An Alternative to Laziness

相关问题

Difference between .*? and .* for regex

R. Hill 14 年前

正则表达式

http:\/\/.*?(?=['\"\< >])

Community datashaman 7 年前

嗯,我可能会简单地说“继续,直到你得到一个不想要的角色”,就像这样:

http://[^'"< >]*

转义版本(基于Q-不确定这是什么引擎):

http:\/\/[^'\"\< >]*

然而 lookahead solution by polygenelubricants

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前