代码之家 › 专栏 › 技术社区 › djdd87

如何使用Regex从一些文本中提取脚本标记?

c#-2.0 regex c#

djdd87 · 技术社区 · 14 年前

我对Regex不是很了解,我正在尝试从一些提取的页面文本中获取所有脚本标记。我尝试了以下模式:

<script.*?>.*?</script>

但这似乎不会返回任何包含任何代码的脚本标记。也就是说,它来自以下方面:

<script type="text/javascript" src="Scripts/Scipt1.js"></script>
<script type="text/javascript" src="Scripts/Scipt2.js"></script>

<script type="text/javascript">
   function SomeMethod()
   {

   }
</script>

我只会得到以下结果:

<script type="text/javascript" src="Scripts/Scipt1.js"></script>
<script type="text/javascript" src="Scripts/Scipt2.js"></script>

我怎样才能把3个都还回去(注意。我确实希望在结果中维护外部脚本标记)。

3 回复 | 直到 14 年前

djdd87 14 年前

这个 . 默认情况下,不匹配换行符,因此只能得到单行结果。

使用 RegexOptions.Singleline 来解决这个问题。它改变了 . 匹配任何字符,包括换行符,因此也可以获得多行匹配。

RegexOptions.Multiline ,这是完全不同的(请阅读IntelliSense工具提示以找出答案)。

Timwi 14 年前

你应该使用 HTML Agility Pack .

例如:

var doc = new HtmlDocument();
doc.Parse(source);

var scripts = doc.DocumentNode.Descendants("script");

Robin Day 14 年前

取决于HTML的质量。

var scripts = XDocument.Parse(HTMLSTRING).Descendants("SCRIPT");

编辑:Pre-Xml.Linq版本:

XmlDocument xDoc = new XmlDocument();
xDoc.Load(HTMLSTRING);
XmlNodeList scripts = xDoc.SelectNodes("//*/SCRIPT");

注意,两者都是未经测试的。。。。

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前