Как посчитать количество файлов в каталоге с помощью Python

Мне нужно посчитать количество файлов в каталоге, используя Python. Я думаю, что самый простой способ len(glob.glob('*')), но это также считает каталог как файл.

Есть ли способ посчитать только файлы в каталоге?

33 ответа

Решение

os.listdir() будет немного более эффективным, чем при использовании glob.glob, Чтобы проверить, является ли имя файла обычным файлом (а не каталогом или другим объектом), используйте os.path.isfile():

import os, os.path

# simple version for working with CWD
print len([name for name in os.listdir('.') if os.path.isfile(name)])

# path joining version for other paths
DIR = '/tmp'
print len([name for name in os.listdir(DIR) if os.path.isfile(os.path.join(DIR, name))])
import os

path, dirs, files = next(os.walk("/usr/lib"))
file_count = len(files)

Для всех видов файлов, подкаталоги включены:

import os

list = os.listdir(dir) # dir is your directory path
number_files = len(list)
print number_files

Только файлы (без подкаталогов):

import os

onlyfiles = next(os.walk(dir))[2] #dir is your directory path as string
print len(onlyfiles)

Здесь очень удобно использовать fnmatch:

import fnmatch

print len(fnmatch.filter(os.listdir(dirpath), '*.txt'))

Более подробная информация: http://docs.python.org/2/library/fnmatch.html

Если вы хотите сосчитать все файлы в каталоге, включая файлы в подкаталогах, самый питонический способ:

import os

file_count = sum(len(files) for _, _, files in os.walk(r'C:\Dropbox'))
print(file_count)

Мы используем сумму, которая быстрее, чем явное добавление количества файлов (время ожидания)

Ответ с pathlib и без загрузки всего списка в память:

from pathlib import Path

path = Path('.')

print(sum(1 for _ in path.glob('*')))  # Files and folders, not recursive
print(sum(1 for _ in path.glob('**/*')))  # Files and folders, recursive

print(sum(1 for x in path.glob('*') if x.is_file()))  # Only files, not recursive
print(sum(1 for x in path.glob('**/*') if x.is_file()))  # Only files, recursive

Коротко и просто

import os
directory_path = '/home/xyz/'
No_of_files = len(os.listdir(directory_path))

Я удивлен, что никто не упомянул os.scandir:

def count_files(dir):
    return len([1 for x in list(os.scandir(dir)) if x.is_file()])
import os
print len(os.listdir(os.getcwd()))
def directory(path,extension):
  list_dir = []
  list_dir = os.listdir(path)
  count = 0
  for file in list_dir:
    if file.endswith(extension): # eg: '.txt'
      count += 1
  return count

Это использует os.listdir и работает для любого каталога:

import os
directory = 'mydirpath'

number_of_files = len([item for item in os.listdir(directory) if os.path.isfile(os.path.join(directory, item))])

это можно упростить с помощью генератора и сделать немного быстрее с помощью:

import os
isfile = os.path.isfile
join = os.path.join

directory = 'mydirpath'
number_of_files = sum(1 for item in os.listdir(directory) if isfile(join(directory, item)))

Хотя я согласен с ответом @DanielStutzbach: os.listdir() будет немного более эффективным, чем при использовании glob.glob,

Однако, для большей точности, если вы хотите посчитать количество определенных файлов в папке, вы хотите использовать len(glob.glob()), Например, если вам нужно сосчитать все PDF-файлы в папке, которую вы хотите использовать:

pdfCounter = len(glob.glob1(myPath,"*.pdf"))
def count_em(valid_path):
   x = 0
   for root, dirs, files in os.walk(valid_path):
       for f in files:
            x = x+1
print "There are", x, "files in this directory."
return x

Взято из этого поста

Это простое решение, которое подсчитывает количество файлов в каталоге, содержащем подпапки. Может пригодиться;

import os
from pathlib import path

def count_files(rootdir):
    '''counts the number of files in each subfolder in a directory'''
    for path in pathlib.Path(rootdir).iterdir():
        if path.is_dir():
            print("There are " + str(len([name for name in os.listdir(path) \
            if os.path.isfile(os.path.join(path, name))])) + " files in " + \
            str(path.name))
            
 
count_files(data_dir) # data_dir is the directory you want files counted.

Вы должны получить аналогичный результат (конечно, с измененными заполнителями);

There are {number of files} files in {name of sub-folder1}
There are {number of files} files in {name of sub-folder2}

Один лайнер и рекурсивный:

def count_files(path):
    return sum([len(files) for _, _, files in os.walk(path)])

count_files('path/to/dir')
import os

def count_files(in_directory):
    joiner= (in_directory + os.path.sep).__add__
    return sum(
        os.path.isfile(filename)
        for filename
        in map(joiner, os.listdir(in_directory))
    )

>>> count_files("/usr/lib")
1797
>>> len(os.listdir("/usr/lib"))
2049

Код Люка переформатировать.

import os

print len(os.walk('/usr/lib').next()[2])

Вот простая однострочная команда, которая мне показалась полезной:

print int(os.popen("ls | wc -l").read())

Я использовал glob.iglob для структуры каталогов, аналогичной

data
└───train
│   └───subfolder1
│   |   │   file111.png
│   |   │   file112.png
│   |   │   ...
│   |
│   └───subfolder2
│       │   file121.png
│       │   file122.png
│       │   ...
└───test
    │   file221.png
    │   file222.png

Обе из следующих опций возвращают 4 (как и ожидалось, т.е. не учитывают сами подпапки)

  • len(list(glob.iglob("data/train/*/*.png", recursive=True)))
  • sum(1 for i in glob.iglob("data/train/*/*.png"))

Это просто:

print(len([iq for iq in os.scandir('PATH')]))

он просто подсчитывает количество файлов в каталоге, я использовал технику понимания списка, чтобы перебрать определенный каталог, возвращая все файлы взамен. "len(возвращенный список)" возвращает количество файлов.

Я нашел другой ответ, который может быть правильным как принятый ответ.

for root, dirs, files in os.walk(input_path):    
for name in files:
    if os.path.splitext(name)[1] == '.TXT' or os.path.splitext(name)[1] == '.txt':
        datafiles.append(os.path.join(root,name)) 


print len(files) 
import os

total_con=os.listdir('<directory path>')

files=[]

for f_n in total_con:
   if os.path.isfile(f_n):
     files.append(f_n)


print len(files)

Я написал простую служебную функцию, которая использует os.scandir() вместо os.listdir().

import os 

def count_files_in_dir(path: str) -> int:
    file_entries = [entry for entry in os.scandir(path) if entry.is_file()]

    return len(file_entries)

Основное преимущество заключается в том, что потребность в os.path.is_file() устраняется и заменяется на os.DirEntry экземпляр is_file() что также устраняет необходимость в os.path.join(DIR, file_name) как показано в других ответах.

Если вы будете использовать стандартную оболочку операционной системы, вы можете получить результат гораздо быстрее, чем с использованием чисто питонического способа.

Пример для Windows:

import os
import subprocess

def get_num_files(path):
    cmd = 'DIR \"%s\" /A-D /B /S | FIND /C /V ""' % path
    return int(subprocess.check_output(cmd, shell=True))

Более простой:

      import os
number_of_files = len(os.listdir(directory))
print(number_of_files)

Я хотел бы расширить ответ от @Mr_and_Mrs_D:

      import os
folder = 'C:/Dropbox'
file_count = sum(len(files) for _, _, files in os.walk(folder))
print(file_count)

При этом учитываются все файлы в папке и ее подпапках. Однако, если вы хотите выполнить некоторую фильтрацию, например, подсчитать только файлы, оканчивающиеся на.svg, ты можешь сделать:

      import os
file_count = sum(len([f for f in files if f.endswith('.svg')]) for _, _, files in os.walk(folder))
print(file_count)

Вы в основном заменяете:

  • len(files)

с:

  • len([f for f in files if f.endswith('.svg')])

Я обнаружил, что иногда я не знаю, получу ли я имена файлов или путь к файлу. Итак, я напечатал вывод решения os walk:

      def count_number_of_raw_data_point_files(path: Union[str, Path], with_file_prefix: str) -> int:
    import os
    path: Path = force_expanduser(path)

    _, _, files = next(os.walk(path))
    # file_count = len(files)
    filename: str
    count: int = 0
    for filename in files:
        print(f'-->{filename=}')  # e.g. print -->filename='data_point_99.json'
        if with_file_prefix in filename:
            count += 1
    return count

вне:

      -->filename='data_point_780.json'
-->filename='data_point_781.json'
-->filename='data_point_782.json'
-->filename='data_point_783.json'
-->filename='data_point_784.json'
-->filename='data_point_785.json'
-->filename='data_point_786.json'
-->filename='data_point_787.json'
-->filename='data_point_788.json'
-->filename='data_point_789.json'
-->filename='data_point_79.json'
-->filename='data_point_790.json'
-->filename='data_point_791.json'
-->filename='data_point_792.json'
-->filename='data_point_793.json'
-->filename='data_point_794.json'
-->filename='data_point_795.json'
-->filename='data_point_796.json'
-->filename='data_point_797.json'
-->filename='data_point_798.json'
-->filename='data_point_799.json'
-->filename='data_point_8.json'
-->filename='data_point_80.json'
-->filename='data_point_800.json'
-->filename='data_point_801.json'
-->filename='data_point_802.json'
-->filename='data_point_803.json'
-->filename='data_point_804.json'
-->filename='data_point_805.json'
-->filename='data_point_806.json'
-->filename='data_point_807.json'
-->filename='data_point_808.json'
-->filename='data_point_809.json'
-->filename='data_point_81.json'
-->filename='data_point_810.json'
-->filename='data_point_811.json'
-->filename='data_point_812.json'
-->filename='data_point_813.json'
-->filename='data_point_814.json'
-->filename='data_point_815.json'
-->filename='data_point_816.json'
-->filename='data_point_817.json'
-->filename='data_point_818.json'
-->filename='data_point_819.json'
-->filename='data_point_82.json'
-->filename='data_point_820.json'
-->filename='data_point_821.json'
-->filename='data_point_822.json'
-->filename='data_point_823.json'
-->filename='data_point_824.json'
-->filename='data_point_825.json'
-->filename='data_point_826.json'
-->filename='data_point_827.json'
-->filename='data_point_828.json'
-->filename='data_point_829.json'
-->filename='data_point_83.json'
-->filename='data_point_830.json'
-->filename='data_point_831.json'
-->filename='data_point_832.json'
-->filename='data_point_833.json'
-->filename='data_point_834.json'
-->filename='data_point_835.json'
-->filename='data_point_836.json'
-->filename='data_point_837.json'
-->filename='data_point_838.json'
-->filename='data_point_839.json'
-->filename='data_point_84.json'
-->filename='data_point_840.json'
-->filename='data_point_841.json'
-->filename='data_point_842.json'
-->filename='data_point_843.json'
-->filename='data_point_844.json'
-->filename='data_point_845.json'
-->filename='data_point_846.json'
-->filename='data_point_847.json'
-->filename='data_point_848.json'
-->filename='data_point_849.json'
-->filename='data_point_85.json'
-->filename='data_point_850.json'
-->filename='data_point_851.json'
-->filename='data_point_852.json'
-->filename='data_point_853.json'
-->filename='data_point_86.json'
-->filename='data_point_87.json'
-->filename='data_point_88.json'
-->filename='data_point_89.json'
-->filename='data_point_9.json'
-->filename='data_point_90.json'
-->filename='data_point_91.json'
-->filename='data_point_92.json'
-->filename='data_point_93.json'
-->filename='data_point_94.json'
-->filename='data_point_95.json'
-->filename='data_point_96.json'
-->filename='data_point_97.json'
-->filename='data_point_98.json'
-->filename='data_point_99.json'
854

обратите внимание, что вам, возможно, придется сортировать.

      import os
len(os.listdir(DIRECTORY))

Я полагаю, что использование только команды оболочки - это короткое и простое решение ( на основе ):

      import os

no_files = os.popen(f"ls -F {directory_name} | grep -v / | wc -l")
print(no_files)
  • ls -F- показывает содержимое каталога и добавляет символ-индикатор к именам записей:*, ,=,>,@или|. В нашем случае нас больше всего интересует пометка каталогов.
  • grep -v /- сохраняет в выводе все строки, не содержащие/.
  • wc -l- подсчитывает строки вывода.

directory_nameявляется необязательным.

Предположим, у меня есть 3 подкаталога в корневом каталоге. (Например: - Кошка / Собака - изображения PNG)

      Rootfolder :-
--Train 
--Test 
--Val 


data
└───train
│   └───subfolder1
│   |   │   file111.png
│   |   │   file112.png
│   |   │   ...
│   |
│   └───subfolder2
│       │   file121.png
│       │   file122.png
│        |   ...
└───test
│   └───subfolder1
│   |   │   file111.png
│   |   │   file112.png
│   |   │   ...
│   |
│   └───subfolder2
│       │   file121.png
│       │   file122.png
│        |.  ...

└───val
│   └───subfolder1
│   |   │   file111.png
│   |   │   file112.png
│   |   │   ...
│   |
│   └───subfolder2
│       │   file121.png
│       │   file122.png
│       │   ...

      import glob

def imageCounter(root_dir_path,image_extension):
  subdir = list(glob.iglob(f"{root_dir_path}/*/", recursive=True))
  child_dir = list(glob.iglob(f"{root_dir_path}/*/*/", recursive=True))

  print("Total Images :=")
  for dir in subdir:
    print("Dir :",dir,"=>", len(list(glob.iglob(f"{dir}*/*.{image_extension}", recursive=True))))

  print("More Detail :=")
  for subdir in child_dir:
    print("Dir :",subdir,"=>", len(list(glob.iglob(f"{subdir}/*.{image_extension}", recursive=True))))

Функция драйвера: -

imageCounter("ROOT_PATH","png")

Другие вопросы по тегам