代码之家 › 专栏 › 技术社区 › user8188120

仅在某些行中读取csv.dictreader

dictionary csv multithreading python

user8188120 · 技术社区 · 6 年前

在python中使用csv.dictreader函数时,是否有方法读取.csv文件的某些行?

例如,如果只想加载.csv文件的第10-20行 不在整个数据集中加载 第一。

我有几个.csv文件,每个文件有2亿行,包含10个字段名数据条目-因此我使用的是dictreader,而不是简单的csv.read()。

下面是我当前方法的一个简单示例:

import csv
from tqdm import tqdm

field_names = ['A','B','C']

IDs = []
with open(file_1) as f:
    reader = csv.DictReader(f,field_names,delimiter=',')
    row_count = 0
    for row in tqdm(reader): 
        row_count+=1
        ID = row['A']
        if ID not in IDs == True: 
        IDs.append(ID)

您可以看到,对于2亿行的迭代来说,这会很慢,而且循环中的任何进一步条件或处理都会大大减慢它的速度。

因此,遍历一组行,然后对它们进行多线程处理以节省时间是有意义的。

我考虑过的事情:

使用pandas csv读取例程(您仍然需要在开始时的整个数据集)
像在我的示例中那样遍历行代码,记录行数,然后在多线程中重新加载行批次。
使用生成器而不是迭代器(如 ThreadPool and Pool for parallel processing )

多谢提前!

1 回复 | 直到 6 年前

blhsing 6 年前

你可以使用 enumerate 生成行索引,以及 break 索引到达目标时的循环:

IDs = set()
for i, row in enumerate(reader):
    if i > 9:
        IDs.add(row['A'])
    elif i > 19:
        break

注意,你可以 IDs 一个集合,而不是一个列表,以便更有效地获取唯一的id。

推荐文章

igbins09 · 在shell bash脚本中使用jq将单行JSON转换为csv

2 年前

Ujjawal Pandey · 如何为矢量化数据帧创建行CSV?

2 年前

greens trial · 在Python中编辑CSV文件名以附加到当前文件名

2 年前

n328 · 如何将指数格式的值从csv读取到numpy数组中?

2 年前

Bilal Sedef · 如何快速组合特定列上的多个csv文件?

2 年前

christhebliss · 如何在一个csv列中写入分号分隔的值?

2 年前

Max J. · 用整数作为键将dict写入csv

2 年前

Sarai · Python中的CSV文件处理和计算值

2 年前

BabaZuri · 应用筛选器时将csv中的行添加到数组

2 年前

user18796731 · 在Python中以CSV格式保存数组元素

2 年前