代码之家 › 专栏 › 技术社区 › posdef

使用AWK过滤大型分隔文件

command-line awk sorting pandas python

posdef · 技术社区 · 7 年前

我目前的策略是在任何处理之前使用GNU排序。在这一点上,我还可以过滤我不需要的字段,因此我有以下一行代码:

awk '{ print $37,$62,$23,$10,$53,$57,$68,$26,$52,$4,$38,$5,$24 }' ../ck_data/big.txt | gsort --parallel=8 --key=1,1 -n -o ../ck_data/sorted.txt

这里的问题是,添加过滤步骤会显著降低速度。在我的机器上排序整个文件(没有任何awk)需要不到2分钟,而这两个过程都需要16分钟20秒。

1 回复 | 直到 7 年前

JonDeg 4 年前

我开源了一个用于制表符分隔文件的工具,该工具提高了过滤步骤的awk速度。该工具是 tsv-select tsv utilities toolkit . 不同awk实现的性能比较如下 here . 与awk调用等效的是

$ tsv-select -f 37,62,23,10,53,57,68,26,52,4,38,5,24 ../ck_data/big.txt

您可以尝试的另一种方法是考虑awk的替代版本。在我的测试中,我发现mawk在这个任务上比其他版本的awk要快得多。请参阅上面列出的基准页面。(注意:Mac OS X附带的awk版本非常慢。gawk(gnu awk)要快得多。可以通过macports或自制软件获得。)

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前