Скрипт Python для рекурсивного поиска по FTP с определенным именем файла и новее, чем 24 часа

В нашем хранилище возникли проблемы с подключением SMB, и теперь мы были вынуждены использовать FTP для доступа к файлам на регулярной основе. Поэтому вместо того, чтобы использовать Bash, я пытаюсь использовать python, но у меня возникают некоторые проблемы. Сценарий должен выполнить рекурсивный поиск по каталогу FTP и найти все файлы "*1700_m30.mp4" не позднее, чем за 24 часа. Затем скопируйте все эти файлы локально.

это то, что я получил до сих пор - но я не могу заставить скрипт загружать файлы или получать статистику из файлов, которые говорят мне, были ли они новее 24 часов.

#!/usr/bin/env python
# encoding: utf-8

import sys
import os
import ftplib
import ftputil
import fnmatch
import time

dir_dest = '/Volumes/VoigtKampff/Temp/TEST1/' # Directory where the files needs to be downloaded to
pattern = '*1700_m30.mp4' #filename pattern for what the script is looking for 
print 'Looking for this pattern :', pattern # print pattern


print "logging into GSP" # print 
host = ftputil.FTPHost('xxx.xxx','xxx','xxxxx') # ftp host info
recursive = host.walk("/GSPstor/xxxxx/xxx/xxx/xxx/xxxx",topdown=True,onerror=None) # recursive search 
for root,dirs,files in recursive:
    for name in files:
        print 'Files   :', files # print all files it finds
        video_list = fnmatch.filter(files, pattern)
        print 'Files to be moved :', video_list # print list of files to be moved 
        if host.path.isfile(video_list): # check whether the file is valid 
            host.download(video_list, video_list, 'b') # download file list 



host.close  

Вот модифицированный скрипт, основанный на превосходных рекомендациях ottomeister (спасибо!!) - последняя проблема сейчас в том, что он скачивает, но продолжает загружать файлы и перезаписывать существующие файлы:

import sys
import os
import ftplib
import ftputil
import fnmatch
import time
from time import mktime
import datetime
import os.path, time 
from ftplib import FTP


dir_dest = '/Volumes/VoigtKampff/Temp/TEST1/' # Directory where the files needs to be downloaded to
pattern = '*1700_m30.mp4' #filename pattern for what the script is looking for 
print 'Looking for this pattern :', pattern # print pattern
utc_datetime_less24H = datetime.datetime.utcnow()-datetime.timedelta(seconds=86400) #UTC time minus 24 hours in seconds
print 'UTC time less than 24 Hours is: ', utc_datetime_less24H.strftime("%Y-%m-%d %H:%M:%S") # print UTC time minus 24 hours in seconds
print "logging into GSP FTP" # print 


with ftputil.FTPHost('xxxxxxxx','xxxxxx','xxxxxx') as host: # ftp host info
    recursive = host.walk("/GSPstor/xxxx/com/xxxx/xxxx/xxxxxx",topdown=True,onerror=None) # recursive search 
    for root,dirs,files in recursive:
        for name in files:
            print 'Files   :', files # print all files it finds
            video_list = fnmatch.filter(files, pattern) # collect all files that match pattern into variable:video_list
            statinfo = host.stat(root, video_list) # get the stats from files in variable:video_list
            file_mtime = datetime.datetime.utcfromtimestamp(statinfo.st_mtime) 
            print 'Files with pattern: %s and epoch mtime is: %s ' % (video_list, statinfo.st_mtime)
            print 'Last Modified: %s' % datetime.datetime.utcfromtimestamp(statinfo.st_mtime) 
            if file_mtime >= utc_datetime_less24H: 
                for fname in video_list:
                    fpath = host.path.join(root, fname)
                    if host.path.isfile(fpath):
                        host.download_if_newer(fpath, os.path.join(dir_dest, fname), 'b') 

host.close()

1 ответ

Решение

Эта строка:

    video_list = fnmatch.filter(files, pattern)

получает список имен файлов, которые соответствуют вашему шаблону глобуса. Но эта строка:

    if host.path.isfile(video_list): # check whether the file is valid 

это подделка, потому что host.path.isfile() не хочет список имен файлов в качестве аргумента. Это хочет единственное имя пути. Так что вам нужно перебрать video_list создавая по одному пути за раз, передавая каждому из этих путей host.path.isfile()и затем, возможно, загрузив этот конкретный файл. Что-то вроде этого:

    import os.path

    for fname in video_list:
        fpath = host.path.join(root, fname)
        if host.path.isfile(fpath):
            host.download(fpath, os.path.join(dir_dest, fname), 'b')

Обратите внимание, что я использую host.path.join() управлять удаленными путями и os.path.join() управлять локальными путями. Также обратите внимание, что при этом все загруженные файлы помещаются в один каталог. Если вы хотите поместить их в иерархию каталогов, которая отражает удаленный макет (вам придется сделать что-то подобное, если имена файлов в разных удаленных каталогах могут конфликтовать), вам нужно будет создать другой путь назначения, и вы ' Возможно, придется создать локальную иерархию каталогов назначения.

Чтобы получить информацию о времени host.lstat() или же host.stat() в зависимости от того, как вы хотите обрабатывать символические ссылки.

И да, это должно быть host.close(), Без этого соединение будет закрыто после host переменная выходит из области видимости и собирается сборщиком мусора, но лучше закрыть ее явно. Еще лучше, используйте with чтобы гарантировать, что соединение закрывается, даже если исключение приводит к тому, что этот код будет отменен до того, как он достигнет host.close() звоните, вот так:

    with ftputil.FTPHost('xxx.xxx','xxx','xxxxx') as host: # ftp host info
        recursive = host.walk(...)
        ...
Другие вопросы по тегам