代码之家 › 专栏 › 技术社区 › Dervin Thunk

为什么正则表达式与此文本匹配?

grep regex

Dervin Thunk · 技术社区 · 10 年前

为什么grep-noE'<数学>*</数学>'匹配

<数学>w</数学>,从一组<数学>w</数学> 特殊二进制分数<数学>V_i,i=1,2,\dots, w</数学>称为方向号。[[格雷码]]的位的<数学>i</数学>&书信电报;数学>G(i)</数学>,已使用选择方向编号。获取Sobol序列值 <数学>s_ i</数学>取二进制的[[exclusive或]] <数学>i</数学>使用适当的方向编号。所需尺寸的数量影响<数学>V_i</数学> 37196767:<数学>\int_0^1 f(u)\,du\近似值 \分数{1}{N}\,总和{i=1}^N f(x_i)</数学>

我只希望每个元素都有自己的元素,而不是贪婪。

3 回复 | 直到 10 年前

falsetru 10 年前

您需要指定非贪婪版本: .*? 但是 grep 正则表达式不支持它。

如果您使用 GNU grep ,您可以使用 -P 选项(或 --perl-regexp ):

grep -noP '<math>.*?</math>'

Barmar 10 年前

使用:

grep -noE '<math>[^<]*</math>'

而不是匹配 <math> 和 </math> ,这将不允许 < 在序列中,所以它不允许 </数学> 在…内

它也不允许任何其他标记,但看起来这对您的文本没有问题。

如果您使用的是支持PCRE的工具,则可以使用非贪婪正则表达式:

<math>.*?</math>

标准 grep 不使用PCRE,但如果使用GNUgrep,则可以使用 -P 选项。

Jotne 10 年前

自从 .* 是贪婪的,它将匹配从第一次发现 <math> 到最后找到 </math>

推荐文章

batman · 如何用特定模式grep特定行及其子网行?

2 年前

user2954003 · AWK使用正则表达式匹配字符串并与前一个字符串组合

2 年前

nickcrv06 · 在两个常量字符串之间提取单词

2 年前

Shin · 格雷普。来自文本文件的js URL

3 年前

Term Grecos · 在空格处从数组输出时,Bash字符串被切断

3 年前

jojo · 用正则表达式搜索,但仅用sed替换字符串的一部分

3 年前

Willians Martins · 如何使用sed、grep或awk获取唯一令牌?

3 年前

David Gall · 查找在特定日期从特定计算机登录的所有用户

3 年前

mles · 如何从unzip-l的输出中grep特定路径

6 年前

LDAsh · 使用正则表达式返回通配符(重复行)

6 年前