代码之家 › 专栏 › 技术社区 › Bruce Adams

regex提取HTML正文

regex vb.net c#

Bruce Adams · 技术社区 · 15 年前

如何使用regex从HTML文档中提取正文, 考虑到HTML和body标记可能是大写、小写还是不存在?

3 回复 | 直到 7 年前

Ishmael 7 年前

不要对此使用正则表达式-使用类似于 Html Agility Pack .

这是一个敏捷的HTML解析器, 构建读/写DOM并支持普通的xpath或xslt(实际上不必理解xpath,也不必使用XSLT,不用担心…)。它是一个.NET代码库,允许您分析“离开网络”的HTML文件。这个解析器对“real”非常宽容 world“格式错误的HTML。客体模型与建议非常相似 System.xml,但用于HTML文档(或溪流)

然后你可以提取 body 使用XPath。

Darryl 15 年前

像这样的怎么样?

它捕获了 <body></body> 标签(由于 RegexOptions.IgnoreCase )加入一个名为 theBody .

RegexOptions.Singleline 允许我们将多行HTML作为单个字符串处理。

如果HTML不包含 <车身></Body> 标签 Success 匹配的属性将为假。

        string html;

        // Populate the html string here

        RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
        Regex regx = new Regex( "<body>(?<theBody>.*)</body>", options );

        Match match = regx.Match( html );

        if ( match.Success ) {
            string theBody = match.Groups["theBody"].Value;
        }

Jeremy Stein 15 年前

这会让你非常接近:

(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前