代码之家 › 专栏 › 技术社区 › Mojing Liu

在Python中通过大文件搜索字符串

large-files find search parsing python

Mojing Liu · 技术社区 · 11 年前

我目前正在进行我的第一个Python项目,我需要解析一个2GB的文件。我发现,如果我一行一行地走,速度会非常非常慢。。。然而,缓冲方法,使用:

f = open(filename)                  
lines = 0
buf_size = 1024 * 1024
read_f = f.read 
buf = read_f(buf_size)
while buf:
    for line in buf:
      #code for string search
      print line
    buf = read_f(buf_size)

在这里,打印行不打印“行”,而是每行一次只打印一个字符。所以我在上面查找子字符串时遇到问题。。。请帮忙!

2 回复 | 直到 11 年前

Cookyt Roberto 11 年前

print line 打印字符是因为 buf 是一个字符串,并且对字符串进行迭代会将该字符串的字符生成为1个字符的字符串。

当你说逐行阅读很慢时,你是如何实现阅读的?如果您使用readlines(),这将解释速度缓慢的原因(请参阅 http://stupidpythonideas.blogspot.com/2013/06/readlines-considered-silly.html ).

文件可以在其行上迭代,Python在迭代时会选择缓冲区大小,因此这可能适合您的需求:

for line in f:
    # do search stuff

如果您想手动指定缓冲区大小,也可以这样做:

buf = f.readlines(buffersize)
while buf:
    for line in buf:
        # do search stuff
    buf = f.readlines(buffersize)

不过,两者中的第一个通常更好。

PhillipD 11 年前

问题是buf是一个字符串。。。

说buf=“abcd”

这意味着,buf[0]=a,buf[1]=b,依此类推。

for line in buf:
    print line

将导致一 b c d

这意味着在for循环中,不是在“行”上循环,而是在buf字符串的所有元素上循环。您可以使用读线或通过查找“\n”将缓冲区拆分为单行。

推荐文章

Anthony James · Excel vba查找单词,然后执行vlookup

6 年前

M Laird · 查找-perm-u=w显示所有文件

6 年前

mauek unak · 查找文件扩展名中字母字符最多的文件

6 年前

PineNuts0 · Python:熊猫数据框使用通配符在列中查找字符串并保留行

6 年前

Navid Ghajarnia · 在Matlab中查找单元格数组结构,错误:需要一个大括号或点索引表达式的输出

6 年前

joe · 如果找不到具有特定类jquery的子级,则追加div

6 年前

Mian Bilawal · 强制查找文件*C

6 年前

capser · 使用-exec显示find命令的输出

6 年前

smci · 获取给定索引前后(窗口+/-1)的向量索引

6 年前

Mike Mann · 循环if条件并搜索。如果找不到值,该怎么办

6 年前