代码之家 › 专栏 › 技术社区 › NotSimon

Python正则表达式是否跳过前几个字符?

html-parsing regex python

NotSimon · 技术社区 · 15 年前

嘿,我有一个关于正则表达式的基本问题。我只想返回body标记内(包括)的文本,我知道下面的错误,因为它还将匹配开始body标记之前的所有字符。我想知道你会怎么跳过那些?

x = re.match('(.*<body).*?(</body>)', fileString)

谢谢

6 回复 | 直到 15 年前

unutbu 15 年前

下面是一些示例代码,它使用正则表达式查找 <body>...</body> 标签。尽管这演示了python re模块的一些特性,但请注意 Beautiful Soup 模块非常易于使用,如果您计划解析HTML或XML,它是一个更好的工具(请参阅下面的示例,了解如何使用BeautifulSoup解析此内容。)

#!/usr/bin/env python
import re

# Here we have a string with a multiline <body>...</body>
fileString='''baz<body>foo
baby foo
baby foo
baby foo
</body><body>bar</body>'''

# re.DOTALL tells re that '.' should match any character, including newlines.
x = re.search('(<body>.*?</body>)', fileString, re.DOTALL)
for match in x.groups():
    print(match)
# <body>foo
# baby foo
# baby foo
# baby foo
# </body>

print(re.findall('(<body>.*?</body>)', fileString, re.DOTALL))
# ['<body>foo\nbaby foo\nbaby foo\nbaby foo\n</body>', '<body>bar</body>']

pat=re.compile('(<body>.*?</body>)', re.DOTALL)
print(pat.findall(fileString))
# ['<body>foo\nbaby foo\nbaby foo\nbaby foo\n</body>', '<body>bar</body>']

以下是您如何使用BeautifulSoup:

#!/usr/bin/env python
from BeautifulSoup import BeautifulSoup

fileString='''baz<body>foo
baby foo
baby foo
baby foo
</body><body>bar</body>'''
soup = BeautifulSoup(fileString)
print(soup.body)
# <body>foo
# baby foo
# baby foo
# baby foo
# </body>

print(soup.findAll('body'))
# [<body>foo
# baby foo
# baby foo
# baby foo
# </body>, <body>bar</body>]

Peter Boughton 15 年前

我不懂Python,但这里有一个使用 Beautiful Soup

import BeautifulSoup

soup = BeautifulSoup(fileString)

bodyTag = soup.html.body.string

这将(理论上)处理HTML的所有复杂性,这对于纯基于regex的答案来说非常困难,因为它不是regex设计的目的。

Mike Graham 15 年前

不能用正则表达式解析HTML。HTML不是一种常规语言。改用像lxml这样的HTML解析器。

-2

Ewan Todd 15 年前

 x = re.match('.*(<body>.*?</body>)', fileString)

考虑MIDIOM进行HTML解析。

-2

foosion 15 年前

x = re.search('(<body>.*</body>)', fileString)
x.group(1)

-2

RedGlyph sumit sonawane 15 年前

您的文件字符串是否包含多行

x = re.match(r"(?:.|\n)*(<body>(?:.|\n)*</body>)", fileString)

或者,更简单地使用re模块:

x = re.match(r".*(<body>.*</body>)", fileString, re.DOTALL)

x.groups()[0] 如果x不是None,则应包含字符串。

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前