代码之家 › 专栏 › 技术社区 › Kaushik Nayak

从python中的文件中读取一个坏的utf数据列表,并将其与一行进行比较

python-2.6 python

Kaushik Nayak · 技术社区 · 7 年前

我要这个字符序列

>>> '\xed\xba\xbd'
'ÃÂºÂ½'

我的 conf_file 包含这些字符串的列表,如果这些字符串出现在一行中并且必须排除,则必须进行比较。

$cat excl_char_seq.lst
\xed\xba\xbd
\xed\xa9\x81
\xed\xba\x91

这是我要比较的代码,如果一行包含这些序列中的任何一个。

v_conf_file = 'excl_char_seq.lst'   
with open(v_conf_file) as f:
     seqlist = f.read().splitlines()
line = 'werÃÂºÂ½66'
print ([ 1 for seqs in seqlist if seqs in line ])

但上面代码的打印列表是空的 .

当我打印seqlist时,我得到了以下输出,它似乎是用一个\来转义序列。

['\\xed\\xba\\xbd', '\\xed\\xa9\\x81', '\\xed\\xba\\x91' ]

如何更正代码,使其与文件内容的行匹配?

1 回复 | 直到 7 年前

Serge Ballesta 7 年前

问题是从文件中读取的行实际上包含12个字符: \ ,请 x ,请 e ,请 d ,请 \ ,请 X ,请 b ,请 a ,请 \ ,请 X ,请 B 和 D ,您要将其转换为3个字符 '\xed' ,' \xba' 和' \xbd' .正则表达式可以帮助识别逃脱以开头的字符 \x 以下内容:

def unescape(string):
    rx = re.compile(r'(\\x((?:[0-9a-fA-F]){2}))')
    while True:
        m = rx.search(string)
        if m is None: return string
        string = string.replace(m.group(1), chr(int(m.group(2), 16)))

可以使用它预处理从文件中提取的行(不要忘记导入 re 模块):

v_conf_file = 'excl_char_seq.lst'   
with open(v_conf_file) as f:
     seqlist = [ unescape(line.strip()) for line in fd ]
line = 'werÃÂºÂ½66'
print ([ 1 for seqs in seqlist if seqs in line ])

当我控制的内容 seqlist ,我如愿以偿:

>>> print seqlist
['\xed\xba\xbd', '\xed\xa9\x81', '\xed\xba\x91']

推荐文章

Google User · Django管理员在`list_display中未显示`creation_date`字段`

11 月前

user29747013 · 如何创建一个新的数据框架,其中包含原始数据框架中列的聚合列?

11 月前

ÎÎÎ½Î· ÎÎ®Î¹Î½Î¿Ï · Python lxml.html语法错误:使用lxml find时XPATH的谓词无效

11 月前

user29715306 · from_users=和chats=电视节目中的差异

11 月前

Redshoe · 当执行numpy.genfromtxt()时,python是否会读取文件的所有行?

11 月前

RASEL MAHMUD · 为什么以及如何在is_even()函数内的IF条件中递归X变量在满足0后递增?[副本]

11 月前

prayner · 更新嵌套字典包含列表中的项

11 月前

Bringo Jr · 我可以在O(n)中解决这个问题吗?

11 月前

Dave · 如何在for循环中修改列表值

11 月前

Shukurullox Komiljonov · 从记录中获得相互和解。使用SQL

11 月前