Панды преобразуют строковые столбцы в дату и время, что позволяет пропустить, но не недействительно
У меня есть pandas
фрейм данных с несколькими столбцами строк, представляющих даты, с пустыми строками, представляющими отсутствующие даты. Например
import numpy as np
import pandas as pd
# expected date format is 'm/%d/%Y'
custId = np.array(list(range(1,6)))
eventDate = np.array(["06/10/1992","08/24/2012","04/24/2015","","10/14/2009"])
registerDate = np.array(["06/08/2002","08/20/2012","04/20/2015","","10/10/2009"])
# both date columns of dfGood should convert to datetime without error
dfGood = pd.DataFrame({'custId':custId, 'eventDate':eventDate, 'registerDate':registerDate})
Я пытаюсь:
- Эффективно преобразуйте столбцы, в которых все строки являются действительными датами или пустыми, в столбцы типа
datetime64
(сNaT
для пустых) - поднимать
ValueError
когда любая непустая строка не соответствует ожидаемому формату,
Пример где ValueError
должны быть подняты:
# 2nd string invalid
registerDate = np.array(["06/08/2002","20/08/2012","04/20/2015","","10/10/2009"])
# eventDate column should convert, registerDate column should raise ValueError
dfBad = pd.DataFrame({'custId':custId, 'eventDate':eventDate, 'registerDate':registerDate})
Эта функция делает то, что я хочу на уровне элемента:
from datetime import datetime
def parseStrToDt(s, format = '%m/%d/%Y'):
"""Parse a string to datetime with the supplied format."""
return pd.NaT if s=='' else datetime.strptime(s, format)
print(parseStrToDt("")) # correctly returns NaT
print(parseStrToDt("12/31/2011")) # correctly returns 2011-12-31 00:00:00
print(parseStrToDt("12/31/11")) # correctly raises ValueError
Тем не менее, я прочитал, что строковые операции не должны быть np.vectorize
-d. Я думал, что это можно сделать эффективно, используя pandas.DataFrame.apply
, как в:
dfGood[['eventDate','registerDate']].applymap(lambda s: parseStrToDt(s)) # raises TypeError
dfGood.loc[:,'eventDate'].apply(lambda s: parseStrToDt(s)) # raises same TypeError
Я предполагаю, что TypeError
имеет какое-то отношение к моей функции, возвращающей другое dtype
, но я хочу воспользоваться преимуществами динамической типизации и заменить строку на datetime (если только значение ValueError не повышено)... так как я могу это сделать?
2 ответа
pandas
не имеет опции, которая точно копирует то, что вы хотите, вот один из способов сделать это, который должен быть относительно эффективным.
In [4]: dfBad
Out[4]:
custId eventDate registerDate
0 1 06/10/1992 06/08/2002
1 2 08/24/2012 20/08/2012
2 3 04/24/2015 04/20/2015
3 4
4 5 10/14/2009 10/10/2009
In [7]: cols
Out[7]: ['eventDate', 'registerDate']
In [9]: dts = dfBad[cols].apply(lambda x: pd.to_datetime(x, errors='coerce', format='%m/%d/%Y'))
In [10]: dts
Out[10]:
eventDate registerDate
0 1992-06-10 2002-06-08
1 2012-08-24 NaT
2 2015-04-24 2015-04-20
3 NaT NaT
4 2009-10-14 2009-10-10
In [11]: mask = pd.isnull(dts) & (dfBad[cols] != '')
In [12]: mask
Out[12]:
eventDate registerDate
0 False False
1 False True
2 False False
3 False False
4 False False
In [13]: mask.any()
Out[13]:
eventDate False
registerDate True
dtype: bool
In [14]: is_bad = mask.any()
In [23]: if is_bad.any():
...: raise ValueError("bad dates in col(s) {0}".format(is_bad[is_bad].index.tolist()))
...: else:
...: df[cols] = dts
...:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-23-579c06ce3c77> in <module>()
1 if is_bad.any():
----> 2 raise ValueError("bad dates in col(s) {0}".format(is_bad[is_bad].index.tolist()))
3 else:
4 df[cols] = dts
5
ValueError: bad dates in col(s) ['registerDate']
Чтобы еще больше принять принятый ответ, я заменил столбцы всех допустимых или отсутствующих строк на проанализированные даты и затем вывел ошибку для оставшихся неразобранных столбцов:
dtCols = ['eventDate', 'registerDate']
dts = dfBad[dtCols].apply(lambda x: pd.to_datetime(x, errors='coerce', format='%m/%d/%Y'))
mask = pd.isnull(dts) & (dfBad[dtCols] != '')
colHasError = mask.any()
invalidCols = colHasError[colHasError].index.tolist()
validCols = list(set(dtCols) - set(invalidCols))
dfBad[validCols] = dts[validCols] # replace the completely valid/empty string cols with dates
if colHasError.any():
raise ValueError("bad dates in col(s) {0}".format(invalidCols))
# raises: ValueError: bad dates in col(s) ['registerDate']
print(dfBad) # eventDate got converted, registerDate didn't
Принятый ответ содержит основную информацию, которая заключается в том, чтобы идти вперед и приводить к ошибкам NaT
а затем отличить непустые, но недействительные строки от пустых с помощью маски.