Более быстрое время?

У меня есть код, который читает огромное количество дат в формате "ГГГГ-ММ-ДД". Синтаксический анализ всех этих дат, позволяющий добавить один, два или три дня, а затем запись в том же формате, значительно замедляет процесс.

 3214657   14.330    0.000  103.698    0.000 trade.py:56(effective)
 3218418   34.757    0.000   66.155    0.000 _strptime.py:295(_strptime)

 day = datetime.datetime.strptime(endofdaydate, "%Y-%m-%d").date()

Любые предложения, как ускорить это немного (или много)?

3 ответа

Решение

Достаточно ли фактора 7 достаточно?

datetime.datetime.strptime(a, '%Y-%m-%d').date()       # 8.87us

datetime.date(*map(int, a.split('-')))                 # 1.28us

РЕДАКТИРОВАТЬ: отличная идея с явным нарезки:

datetime.date(int(a[:4]), int(a[5:7]), int(a[8:10]))   # 1.06us

это делает фактор 8.

Python 3.7+: fromisoformat()

Начиная с Python 3.7, datetime класс имеет fromisoformatметод. Следует отметить, что это также может быть применено к этому вопросу:

Производительность vs. strptime()

Явная нарезка строк может дать вам примерно 9-кратное увеличение производительности по сравнению с обычным strptime, но вы можете получить примерно 90-кратное увеличение с помощью встроенногоfromisoformat метод!

%timeit isofmt(datelist)
569 µs ± 8.45 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit slice2int(datelist)
5.51 ms ± 48.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit normalstrptime(datelist)
52.1 ms ± 1.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
from datetime import datetime, timedelta
base, n = datetime(2000, 1, 1, 1, 2, 3, 420001), 10000
datelist = [(base + timedelta(days=i)).strftime('%Y-%m-%d') for i in range(n)]

def isofmt(l):
    return list(map(datetime.fromisoformat, l))

def slice2int(l):   
    def slicer(t):
        return datetime(int(t[:4]), int(t[5:7]), int(t[8:10]))
    return list(map(slicer, l))

def normalstrptime(l):
    return [datetime.strptime(t, '%Y-%m-%d') for t in l]

print(isofmt(datelist[0:1]))
print(slice2int(datelist[0:1]))
print(normalstrptime(datelist[0:1]))

# [datetime.datetime(2000, 1, 1, 0, 0)]
# [datetime.datetime(2000, 1, 1, 0, 0)]
# [datetime.datetime(2000, 1, 1, 0, 0)]

Python 3.8.3rc1 x64 / Win10

Для строки без часового пояса в формате ISO, например: "2021-01-04T14:30:03.123":

      datetime.datetime(int(d[:4]), int(d[5:7]), int(d[8:10]), int(d[11:13]), int(d[14:16]), int(d[17:19]), int(d[20:]))

Кажется, работает быстрее, чем strptime()а также fromisoformat().

Другие вопросы по тегам