代码之家  ›  专栏  ›  技术社区  ›  Gary Willoughby

使用python计算目录的大小?

  •  133
  • Gary Willoughby  · 技术社区  · 15 年前

    在我重新发明这个特定的控制盘之前,有没有人有一个好的程序来使用python计算目录的大小?如果程序能以MB/GB等格式很好地格式化大小,那就太好了。

    25 回复  |  直到 6 年前
        1
  •  177
  •   Resigned June 2023 cmaynard    6 年前

    这将获取子目录:

    import os
    def get_size(start_path = '.'):
        total_size = 0
        for dirpath, dirnames, filenames in os.walk(start_path):
            for f in filenames:
                fp = os.path.join(dirpath, f)
                total_size += os.path.getsize(fp)
        return total_size
    
    print get_size()
    

    和一个有趣的一行程序 os.listdir ( 不包括子目录 ):

    import os
    sum(os.path.getsize(f) for f in os.listdir('.') if os.path.isfile(f))
    

    参考文献:

    os.path.getsize -以字节为单位给出大小

    os.walk

    更新的 使用 os.path.getsize文件 ,这比使用os.stat().st_size方法更清楚。

    感谢GhostDog74指出了这一点!

    os.stat - STY大小 以字节为单位给出大小。也可用于获取文件大小和其他与文件相关的信息。

    更新2018

    如果使用python 3.4或更高版本,则可以考虑使用更高效的 walk 第三方提供的方法 scandir 包裹。在python 3.5及更高版本中,这个包已经被合并到标准库中,并且 os.walk 得到了相应的业绩增长。

        2
  •  31
  •   flaschbier Zioalex    9 年前

    到目前为止,建议的一些方法实现递归,其他方法使用shell,或者不会生成格式整洁的结果。当您的代码对于Linux平台是一次性的时,您可以像往常一样得到格式化,包括递归,作为一个一行程序。除了 print 在最后一行中,它将适用于当前版本的 python2 python3 :

    du.py
    -----
    #!/usr/bin/python3
    import subprocess
    
    def du(path):
        """disk usage in human readable format (e.g. '2,1GB')"""
        return subprocess.check_output(['du','-sh', path]).split()[0].decode('utf-8')
    
    if __name__ == "__main__":
        print(du('.'))
    

    简单、高效,适用于文件和多级目录:

    $ chmod 750 du.py
    $ ./du.py
    2,9M
    

    5年后有点晚了,但因为这仍然在搜索引擎的排行榜上,这可能会有所帮助…

        3
  •  22
  •   Samuel Lampa    14 年前

    这里有一个递归函数(它递归地汇总所有子文件夹及其各自文件的大小),它返回与在Linux中运行“du-sb”时完全相同的字节(其中“.”表示“当前文件夹”):

    import os
    
    def getFolderSize(folder):
        total_size = os.path.getsize(folder)
        for item in os.listdir(folder):
            itempath = os.path.join(folder, item)
            if os.path.isfile(itempath):
                total_size += os.path.getsize(itempath)
            elif os.path.isdir(itempath):
                total_size += getFolderSize(itempath)
        return total_size
    
    print "Size: " + str(getFolderSize("."))
    
        4
  •  14
  •   blakev    8 年前

    python 3.5递归文件夹大小使用 os.scandir

    def folder_size(path='.'):
        total = 0
        for entry in os.scandir(path):
            if entry.is_file():
                total += entry.stat().st_size
            elif entry.is_dir():
                total += folder_size(entry.path)
        return total
    
        5
  •  7
  •   troex    15 年前

    Monknut的答案很好,但在断开的符号链接上失败,因此您还必须检查此路径是否真的存在。

    if os.path.exists(fp):
        total_size += os.stat(fp).st_size
    
        6
  •  7
  •   Chris    12 年前

    接受的答案不考虑硬链接或软链接,并且会将这些文件计数两次。您需要跟踪所看到的inode,而不是添加这些文件的大小。

    import os
    def get_size(start_path='.'):
        total_size = 0
        seen = {}
        for dirpath, dirnames, filenames in os.walk(start_path):
            for f in filenames:
                fp = os.path.join(dirpath, f)
                try:
                    stat = os.stat(fp)
                except OSError:
                    continue
    
                try:
                    seen[stat.st_ino]
                except KeyError:
                    seen[stat.st_ino] = True
                else:
                    continue
    
                total_size += stat.st_size
    
        return total_size
    
    print get_size()
    
        7
  •  7
  •   andrewh    11 年前

    Chris的答案很好,但可以通过使用集合检查所见目录来使其更加惯用,这也避免了对控制流使用异常:

    def directory_size(path):
        total_size = 0
        seen = set()
    
        for dirpath, dirnames, filenames in os.walk(path):
            for f in filenames:
                fp = os.path.join(dirpath, f)
    
                try:
                    stat = os.stat(fp)
                except OSError:
                    continue
    
                if stat.st_ino in seen:
                    continue
    
                seen.add(stat.st_ino)
    
                total_size += stat.st_size
    
        return total_size  # size in bytes
    
        8
  •  6
  •   user2772509    11 年前

    递归一行程序:

    def getFolderSize(p):
       from functools import partial
       prepend = partial(os.path.join, p)
       return sum([(os.path.getsize(f) if os.path.isfile(f) else getFolderSize(f)) for f in map(prepend, os.listdir(p))])
    
        9
  •  5
  •   Mmmh mmh    10 年前

    问题的第二部分

    def human(size):
    
        B = "B"
        KB = "KB" 
        MB = "MB"
        GB = "GB"
        TB = "TB"
        UNITS = [B, KB, MB, GB, TB]
        HUMANFMT = "%f %s"
        HUMANRADIX = 1024.
    
        for u in UNITS[:-1]:
            if size < HUMANRADIX : return HUMANFMT % (size, u)
            size /= HUMANRADIX
    
        return HUMANFMT % (size,  UNITS[-1])
    
        10
  •  4
  •   gypaetus    11 年前

    你可以这样做:

    import commands   
    size = commands.getoutput('du -sh /path/').split()[0]
    

    在这种情况下,在返回结果之前,我没有测试过它,如果需要,可以使用commands.getstatusoutput检查它。

        11
  •  4
  •   Sardathrion - against SE abuse    8 年前

    去派对有点晚,但如果你有 glob2 humanize 安装。注意,在python 3中,默认 iglob 具有递归模式。如何修改Python3的代码留给读者做一个简单的练习。

    >>> import os
    >>> from humanize import naturalsize
    >>> from glob2 import iglob
    >>> naturalsize(sum(os.path.getsize(x) for x in iglob('/var/**'))))
    '546.2 MB'
    
        12
  •  3
  •   Community CDub    7 年前

    你说的一句话… 这是一条单线:

    sum([sum(map(lambda fname: os.path.getsize(os.path.join(directory, fname)), files)) for directory, folders, files in os.walk(path)])
    

    虽然我可能会把它分开,但它不执行任何检查。

    要转换为KB,请参见 Reusable library to get human readable version of file size? 并在其中工作

        13
  •  2
  •   MaxU - stand with Ukraine    9 年前

    以下脚本打印指定目录的所有子目录的目录大小。它还试图从缓存递归函数的调用中获益(如果可能的话)。如果省略参数,脚本将在当前目录中工作。输出按目录大小从大到小排序。所以你可以根据自己的需要来调整它。

    我用578019号配方来显示人性化的目录大小。( http://code.activestate.com/recipes/578019/ )

    from __future__ import print_function
    import os
    import sys
    import operator
    
    def null_decorator(ob):
        return ob
    
    if sys.version_info >= (3,2,0):
        import functools
        my_cache_decorator = functools.lru_cache(maxsize=4096)
    else:
        my_cache_decorator = null_decorator
    
    start_dir = os.path.normpath(os.path.abspath(sys.argv[1])) if len(sys.argv) > 1 else '.'
    
    @my_cache_decorator
    def get_dir_size(start_path = '.'):
        total_size = 0
        if 'scandir' in dir(os):
            # using fast 'os.scandir' method (new in version 3.5)
            for entry in os.scandir(start_path):
                if entry.is_dir(follow_symlinks = False):
                    total_size += get_dir_size(entry.path)
                elif entry.is_file(follow_symlinks = False):
                    total_size += entry.stat().st_size
        else:
            # using slow, but compatible 'os.listdir' method
            for entry in os.listdir(start_path):
                full_path = os.path.abspath(os.path.join(start_path, entry))
                if os.path.isdir(full_path):
                    total_size += get_dir_size(full_path)
                elif os.path.isfile(full_path):
                    total_size += os.path.getsize(full_path)
        return total_size
    
    def get_dir_size_walk(start_path = '.'):
        total_size = 0
        for dirpath, dirnames, filenames in os.walk(start_path):
            for f in filenames:
                fp = os.path.join(dirpath, f)
                total_size += os.path.getsize(fp)
        return total_size
    
    def bytes2human(n, format='%(value).0f%(symbol)s', symbols='customary'):
        """
        (c) http://code.activestate.com/recipes/578019/
    
        Convert n bytes into a human readable string based on format.
        symbols can be either "customary", "customary_ext", "iec" or "iec_ext",
        see: http://goo.gl/kTQMs
    
          >>> bytes2human(0)
          '0.0 B'
          >>> bytes2human(0.9)
          '0.0 B'
          >>> bytes2human(1)
          '1.0 B'
          >>> bytes2human(1.9)
          '1.0 B'
          >>> bytes2human(1024)
          '1.0 K'
          >>> bytes2human(1048576)
          '1.0 M'
          >>> bytes2human(1099511627776127398123789121)
          '909.5 Y'
    
          >>> bytes2human(9856, symbols="customary")
          '9.6 K'
          >>> bytes2human(9856, symbols="customary_ext")
          '9.6 kilo'
          >>> bytes2human(9856, symbols="iec")
          '9.6 Ki'
          >>> bytes2human(9856, symbols="iec_ext")
          '9.6 kibi'
    
          >>> bytes2human(10000, "%(value).1f %(symbol)s/sec")
          '9.8 K/sec'
    
          >>> # precision can be adjusted by playing with %f operator
          >>> bytes2human(10000, format="%(value).5f %(symbol)s")
          '9.76562 K'
        """
        SYMBOLS = {
            'customary'     : ('B', 'K', 'M', 'G', 'T', 'P', 'E', 'Z', 'Y'),
            'customary_ext' : ('byte', 'kilo', 'mega', 'giga', 'tera', 'peta', 'exa',
                               'zetta', 'iotta'),
            'iec'           : ('Bi', 'Ki', 'Mi', 'Gi', 'Ti', 'Pi', 'Ei', 'Zi', 'Yi'),
            'iec_ext'       : ('byte', 'kibi', 'mebi', 'gibi', 'tebi', 'pebi', 'exbi',
                               'zebi', 'yobi'),
        }
        n = int(n)
        if n < 0:
            raise ValueError("n < 0")
        symbols = SYMBOLS[symbols]
        prefix = {}
        for i, s in enumerate(symbols[1:]):
            prefix[s] = 1 << (i+1)*10
        for symbol in reversed(symbols[1:]):
            if n >= prefix[symbol]:
                value = float(n) / prefix[symbol]
                return format % locals()
        return format % dict(symbol=symbols[0], value=n)
    
    ############################################################
    ###
    ###  main ()
    ###
    ############################################################
    if __name__ == '__main__':
        dir_tree = {}
        ### version, that uses 'slow' [os.walk method]
        #get_size = get_dir_size_walk
        ### this recursive version can benefit from caching the function calls (functools.lru_cache)
        get_size = get_dir_size
    
        for root, dirs, files in os.walk(start_dir):
            for d in dirs:
                dir_path = os.path.join(root, d)
                if os.path.isdir(dir_path):
                    dir_tree[dir_path] = get_size(dir_path)
    
        for d, size in sorted(dir_tree.items(), key=operator.itemgetter(1), reverse=True):
            print('%s\t%s' %(bytes2human(size, format='%(value).2f%(symbol)s'), d))
    
        print('-' * 80)
        if sys.version_info >= (3,2,0):
            print(get_dir_size.cache_info())
    

    样品输出:

    37.61M  .\subdir_b
    2.18M   .\subdir_a
    2.17M   .\subdir_a\subdir_a_2
    4.41K   .\subdir_a\subdir_a_1
    ----------------------------------------------------------
    CacheInfo(hits=2, misses=4, maxsize=4096, currsize=4)
    

    编辑:根据用户2233949的建议,将空装饰器移动到上面

        14
  •  2
  •   0 _ Edward Ned Harvey    7 年前

    使用库 sh 模块 du 是这样吗?

    pip install sh
    
    import sh
    print( sh.du("-s", ".") )
    91154728        .
    

    如果你想通过asterix,使用 glob 如上所述 here .

    要转换人类可读性中的值,请使用 humanize 以下内容:

    pip install humanize
    
    import humanize
    print( humanize.naturalsize( 91157384 ) )
    91.2 MB
    
        15
  •  2
  •   user8777433    6 年前

    它很方便:

    import os
    import stat
    
    size = 0
    path_ = ""
    def calculate(path=os.environ["SYSTEMROOT"]):
        global size, path_
        size = 0
        path_ = path
    
        for x, y, z in os.walk(path):
            for i in z:
                size += os.path.getsize(x + os.sep + i)
    
    def cevir(x):
        global path_
        print(path_, x, "Byte")
        print(path_, x/1024, "Kilobyte")
        print(path_, x/1048576, "Megabyte")
        print(path_, x/1073741824, "Gigabyte")
    
    calculate("C:\Users\Jundullah\Desktop")
    cevir(size)
    
    Output:
    C:\Users\Jundullah\Desktop 87874712211 Byte
    C:\Users\Jundullah\Desktop 85815148.64355469 Kilobyte
    C:\Users\Jundullah\Desktop 83803.85609722137 Megabyte
    C:\Users\Jundullah\Desktop 81.83970321994275 Gigabyte
    
        16
  •  1
  •   ghostdog74    15 年前

    对于获取一个文件的大小,有os.path.getsize()。

    >>> import os
    >>> os.path.getsize("/path/file")
    35L
    

    它以字节为单位报告。

        17
  •  1
  •   Akarius    8 年前

    我使用的是python 2.7.13 scandir 下面是我的一行递归函数,用于获取文件夹的总大小:

    from scandir import scandir
    def getTotFldrSize(path):
        return sum([s.stat(follow_symlinks=False).st_size for s in scandir(path) if s.is_file(follow_symlinks=False)]) + \
        + sum([getTotFldrSize(s.path) for s in scandir(path) if s.is_dir(follow_symlinks=False)])
    
    >>> print getTotFldrSize('.')
    1203245680
    

    https://pypi.python.org/pypi/scandir

        18
  •  1
  •   Nirvik Ghosh    7 年前

    当计算子目录的大小时,它应该更新其父目录的文件夹大小,直到它到达根父目录。

    以下函数计算文件夹及其所有子文件夹的大小。

    import os
    
    def folder_size(path):
        parent = {}  # path to parent path mapper
        folder_size = {}  # storing the size of directories
        folder = os.path.realpath(path)
    
        for root, _, filenames in os.walk(folder):
            if root == folder:
                parent[root] = -1  # the root folder will not have any parent
                folder_size[root] = 0.0  # intializing the size to 0
    
            elif root not in parent:
                immediate_parent_path = os.path.dirname(root)  # extract the immediate parent of the subdirectory
                parent[root] = immediate_parent_path  # store the parent of the subdirectory
                folder_size[root] = 0.0  # initialize the size to 0
    
            total_size = 0
            for filename in filenames:
                filepath = os.path.join(root, filename)
                total_size += os.stat(filepath).st_size  # computing the size of the files under the directory
            folder_size[root] = total_size  # store the updated size
    
            temp_path = root  # for subdirectories, we need to update the size of the parent till the root parent
            while parent[temp_path] != -1:
                folder_size[parent[temp_path]] += total_size
                temp_path = parent[temp_path]
    
        return folder_size[folder]/1000000.0
    
        19
  •  1
  •   BR1COP    6 年前

    如果您在Windows OS中,可以执行以下操作:

    通过启动以下命令安装模块pywin32:

    pip安装pywin32

    然后编码如下:

    import win32com.client as com
    
    def get_folder_size(path):
       try:
           fso = com.Dispatch("Scripting.FileSystemObject")
           folder = fso.GetFolder(path)
           size = str(round(folder.Size / 1048576))
           print("Size: " + size + " MB")
       except Exception as e:
           print("Error --> " + str(e))
    
        20
  •  1
  •   delica    6 年前

    这里有一个递归执行的一行程序(从Python3.5开始提供递归选项):

    import os
    import glob
    print(sum(os.path.getsize(f) for f in glob.glob('**', recursive=True) if os.path.isfile(f))/(1024*1024))
    
        21
  •  0
  •   user3762880    10 年前

    这个脚本告诉您哪个文件在CWD中最大,还告诉您该文件在哪个文件夹中。 这个脚本在win8和python 3.3.3 shell上为我工作

    import os
    
    folder=os.cwd()
    
    number=0
    string=""
    
    for root, dirs, files in os.walk(folder):
        for file in files:
            pathname=os.path.join(root,file)
    ##        print (pathname)
    ##        print (os.path.getsize(pathname)/1024/1024)
            if number < os.path.getsize(pathname):
                number = os.path.getsize(pathname)
                string=pathname
    
    
    ##        print ()
    
    
    print (string)
    print ()
    print (number)
    print ("Number in bytes")
    
        22
  •  0
  •   alfonso    8 年前

    诚然,这是一种黑客行为,只在Unix/Linux上工作。

    它匹配 du -sb . 因为实际上,这是一个运行 杜甫 命令。

    import subprocess
    
    def system_command(cmd):
        """"Function executes cmd parameter as a bash command."""
        p = subprocess.Popen(cmd,
                             stdout=subprocess.PIPE,
                             stderr=subprocess.PIPE,
                             shell=True)
        stdout, stderr = p.communicate()
        return stdout, stderr
    
    size = int(system_command('du -sb . ')[0].split()[0])
    
        23
  •  0
  •   meh    7 年前

    为了它的价值…tree命令免费执行所有这些操作:

    tree -h --du /path/to/dir  # files and dirs
    tree -h -d --du /path/to/dir  # dirs only
    

    我喜欢Python,但到目前为止,这个问题最简单的解决方案不需要新的代码。

        24
  •  0
  •   Tomas Oliver Ramilison    7 年前

    我有点晚了(而且是新的),但是我选择了使用子进程模块和Linux的“du”命令行来检索以MB为单位的文件夹大小的准确值。我必须对根文件夹使用if和elif,否则子进程会由于返回的非零值而引发错误。

    import subprocess
    import os
    
    #
    # get folder size
    #
    def get_size(self, path):
        if os.path.exists(path) and path != '/':
            cmd = str(subprocess.check_output(['sudo', 'du', '-s', path])).\
                replace('b\'', '').replace('\'', '').split('\\t')[0]
            return float(cmd) / 1000000
        elif os.path.exists(path) and path == '/':
            cmd = str(subprocess.getoutput(['sudo du -s /'])). \
                replace('b\'', '').replace('\'', '').split('\n')
            val = cmd[len(cmd) - 1].replace('/', '').replace(' ', '')
            return float(val) / 1000000
        else: raise ValueError
    
        25
  •  -1
  •   BARSPIN    10 年前
    import os
    
    def get_size(path):
        total_size = 0
        for dirpath, dirnames, filenames in os.walk(path):
            for f in filenames:
                if os.path.exists(fp):
                    fp = os.path.join(dirpath, f)
                    total_size += os.path.getsize(fp)
    
        return total_size   # in megabytes
    

    感谢Monkut&troex!这真的很管用!