代码之家 › 专栏 › 技术社区 › RightmireM

逐行写入gzip文件

gzip concatenation file bash

RightmireM · 技术社区 · 7 年前

我正在处理大数据(数百万行)。

我有一个COTS脚本来生成这些行,我需要根据内容将这些行注释到不同的文件中。由于文件的大小为纯文本,所以如果数据可以直接以gzip格式写入,这将非常理想。

即。

line_generator | while read line; do
  [[ $line =~ .*0/0.* ]] && { echo "${#line}," | gzip -9 >> REF.out.gz ; }
  [[ $line =~ .*0/1.* ]] && { echo "${line}" | gzip -9 >> MAT.out.gz ; }
  [[ $line =~ .*1/0.* ]] && { echo "${line} | sed 's/X/y/g'" | gzip -9 >> MAT.out.gz ; }
done

同样,由于文件大小和行数非常大,我不确定是否可以先在内存中构建文件,然后再转储到GZIP'ped文件。

1 回复 | 直到 7 年前

ilkkachu CesarB 7 年前

你在复印一份 gzip 每一条线单独安装。这不是一个好主意,因为它很慢,压缩也会受到影响,因为所有行都被压缩为独立的块。对于短线,结果可能比未压缩版本长。。。

但是,你可以使用一次打开管道 exec 和 process substitution redirections 在shell过程中进行)。例如:

#!/bin/bash
exec 3> >(gzip -9 >> odd.out.gz)
exec 4> >(gzip -9 >> even.out.gz)

seq 1 1000 | while read x ; do 
        [[ $x =~ [13579]$ ]] && echo "$x" >&3
        [[ $x =~ [02468]$ ]] && echo "$x" >&4
done 
# close the pipes when you're done
exec 3>&-
exec 4>&-

推荐文章

Batavia · Bash-删除大目录中的文件

1 年前

Nurlign Yitbarek · 你能为我提供一个可以将数据从GRG ATM传输到特定服务器的脚本吗?[已关闭]

1 年前

Purushottam Nawale · Shell脚本打开VS代码,然后脚本在VS代码终端中运行

1 年前

stackbiz · 如何在bash中将所有换行符替换为“\n”

1 年前

Keren · 如何使变量大1

1 年前

igbins09 · 在shell bash脚本中使用jq将单行JSON转换为csv

2 年前

voilalex · 运行影响父shell的Python脚本(更改环境变量、运行其他脚本等)

2 年前

user2954003 · AWK使用正则表达式匹配字符串并与前一个字符串组合

2 年前

twisted · 将apache2 CustomLog管道传输到以其他用户身份运行的程序

2 年前

Paul · Bash wait命令忽略指定的进程ID

2 年前