代码之家  ›  专栏  ›  技术社区  ›  rbaleksandar

使用tarfile(Python)仅压缩给定目录中的文件

  •  1
  • rbaleksandar  · 技术社区  · 7 年前

    我编写了以下脚本,可以压缩 src (可以是单个文件或目录)到目标“dst”:

    #!/usr/bin/env python2
    
    import tarfile
    from ntpath import basename, dirname
    from os import path, listdir, makedirs, chdir
    import errno
    import sys
    
    class Archivator:
        @staticmethod
        def compress(src='input/test', dst='output'):
            # if not path.isfile(src_file):
            #     print('Expecting absolute path to file (not directory) as "src". If "src" does contain a file, the file does not exist')
            #     return False
    
            if not path.isdir(dst):
                return False
                # try:
                #     makedirs(dst_dir)
                # except OSError as err:
                #     if err.errno != errno.EEXIST:
                #         return False
    
            filename = basename(src) if path.isdir(src) else src
            tar_file = dst + '/' + filename + '.tar.gz'
            print(tar_file)
            print(src)
            with tarfile.open(tar_file, 'w:gz') as tar:
                print('Creating archive "' + tar_file + '"')
                # chdir(dirname(dst_dir))
                recr = path.isdir(src)
                if recr:
                    print('Source is a directory. Will compress all contents using recursion')
                tar.add(src, recursive=recr)
    
            return True
    
    
    if __name__ == '__main__':
        import argparse
    
        parser = argparse.ArgumentParser(description='Uses tar to compress file')
        parser.add_argument('-src', '--source', type=str,
                            help='Absolute path to file (not directory) that will be compressed')
        parser.add_argument('-dst', '--destination', type=str, default='output/',
                            help='Path to output directory. Create archive inside the directory will have the same name as value of "--src" argument')
    
        # Generate configuration
        config = parser.parse_args()
    
        Archivator.compress(config.source, config.destination)
    

    对于单个文件,到目前为止我还没有遇到问题。然而,当压缩 src公司 (作为目录)确实有效(递归和所有)我注意到一个非常恼人的问题,即完整的目录结构在 tar.gz 档案文件

    例子:

    假设我有以下文件结构:

    ./
     |---compression.py (script above)
     |
     |---updates/
     |       |
     |       |---package1/
     |               |
     |               |---file1
     |               |---file2
     |               |---dir/
     |                     |
     |                     |---file3
     |
     |---compressed/
    

    具有 src = 'updates/package1' dst = 'compressed' 我希望生成的归档将

    • 放置在内部 dst (本工程)
    • 包含 file1 file2

    关于第二点我想

    ./
     |---compression.py (script above)
     |
     |---updates/
     |       |
     |       |---package1/
     |               |
     |               |---file1
     |               |---file2
     |               |---dir/
     |                    |
     |                    |---file3
     |
     |---compressed/
              |
              |---package1.tar.gz
                     |
                     |---file1
                     |---file2
                     |---dir/
                          |
                          |---file3
    

    但是我得到了

    ./
     |---compression.py (script above)
     |
     |---updates/
     |       |
     |       |---package1/
     |               |
     |               |---file1
     |               |---file2
     |               |---dir/
     |                    |
     |                    |---file3
     |
     |---compressed/
             |
             |---package1.tar.gz
                     |
                     |---updates/
                            |
                            |---package1/
                                    |
                                    |---file1
                                    |---file2
                                    |---dir/
                                         |
                                         |---file3
    

    虽然解决方案可能真的很琐碎,但我似乎无法找到它。我甚至试过 chdir -ing内部 src公司 (如果是目录)但它不起作用。我的一些实验甚至导致 OSError (由于缺少预期存在的目录)和已损坏的存档。

    2 回复  |  直到 7 年前
        1
  •  1
  •   Sraw    7 年前

    首先,您使用的是参数 recursive 错误地。

    根据 tarfile :

    def add(self, name, arcname=None, recursive=True, exclude=None):
        """Add the file `name' to the archive. `name' may be any type of file
           (directory, fifo, symbolic link, etc.). If given, `arcname'
           specifies an alternative name for the file in the archive.
           Directories are added recursively by default. This can be avoided by
           setting `recursive' to False. `exclude' is a function that should
           return True for each filename to be excluded.
        """
    

    您可以使用 arcname 指定存档中的替代名称。和 递归的 用于控制是否递归创建目录。

    tarfile文件 可以直接添加目录。

    回到您的问题,您可以手动添加每个文件并指定其 arcname . 例如 tar.add("updates/package1/file1", "file1") .

    使现代化

    或者您可以设置 arcname 到空字符串。因为它将省略根目录。

        2
  •  0
  •   user1380462    3 年前

    我基本上用过 .replace 要删除基本文件夹路径,请使用 arcname .

            with tarfile.open(tar_path, tar_compression) as tar_handle:
                for root, dirs, files in os.walk(test_data_path):
                    for file in files:
                        tar_handle.add(os.path.join(root, file), arcname=os.path.join(root, file).replace(test_data_path, ""))