代码之家 › 专栏 › 技术社区 › Clone

Regex从以下网址获取example.comhttps://www.subdomain.example.com/folder/

regex

Clone · 技术社区 · 2 年前

我正在努力计算所有领域 example 和扩展 .com (又名顶级域)从一个文本中可以包括链接,但我完全失败了,因为它也匹配子域,而且有时域是扩展名。

球门

https://www.subdomain.example.com/folder/folder  -> example.com
example.com/folder/folder                        -> example.com
www.subdomain.example.com/folder/folder          -> example.com
example.com                                      -> example.com
www.example.com                                  -> example.com
subdomain.example.com                            -> example.com

尝试1:

(?:(?:www?).)?\b((xn--)?[a-z0-9]+(-[a-z0-9]+)*\.)+[a-z]{2,}\b

Regex Demo

尝试2:

(?:(?:https?|ftp):\/\/)?[\w/\-?=%.]+\.[\w/\-&?=%.]+

Regex Demo

0 回复 | 直到 2 年前

Sam 2 年前

像这样的事情可能会奏效,或者是一个开始: https://regex101.com/r/1UMjML/1 (略微更新了regex)

正则表达式: (?<=https?://)(?:\w+\.)+(?<domain>\w+\.\w+)[/\s$]

0x263A 2 年前

一个简单的解决方案是匹配任何后面跟着tld的东西:

\w+\.com

regex101.com

然后,您可以通过在开头和结尾填充您想要匹配的内容来使其更加明确,例如:

(?:https:\/\/.*?)?(\w+\.com)

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前