Преобразовать DateTimeindex, чтобы он содержал только год, час и день, а не время
У меня есть датафрейм с индексом, который также содержит Hour:second:... но вместо этого я просто хочу, чтобы он содержал дату как год, месяц, день.
Возможно ли, чтобы индекс все еще был DateTimeIndex, но содержал только год, месяц, день?
Текущий индекс выглядит так:
my_index = DatetimeIndex(['2017-08-25', '2017-08-24', '2017-08-23', '2017-08-22',
'2017-08-21', '2017-08-20', '2017-08-19', '2017-08-18',
'2017-08-17', '2017-08-16',
...
'2015-07-19', '2015-07-18', '2015-07-17', '2015-07-16',
'2015-07-15', '2015-07-14', '2015-07-13', '2015-07-12',
'2015-07-11', '2015-07-10'],
dtype='datetime64[ns]', length=778, freq=None)
Я мог бы сделать:
only_date_index = [el.date() for el in my_index]
Но затем, если я хочу использовать функцию повторной выборки в пандах, я получаю сообщение об ошибке: TypeError: Действителен только с DatetimeIndex, TimedeltaIndex или PeriodIndex, но получил экземпляр Index.
1 ответ
Решение
Тебе нужно DatetimeIndex.floor
:
myIndex = df.index.floor('D')
Образец:
rng = pd.date_range('2017-04-03 15:00:45', periods=10, freq='24T')
df = pd.DataFrame({'a': range(10)}, index=rng)
print (df)
a
2017-04-03 15:00:45 0
2017-04-03 15:24:45 1
2017-04-03 15:48:45 2
2017-04-03 16:12:45 3
2017-04-03 16:36:45 4
2017-04-03 17:00:45 5
2017-04-03 17:24:45 6
2017-04-03 17:48:45 7
2017-04-03 18:12:45 8
2017-04-03 18:36:45 9
myIndex = df.index.floor('D')
print (myIndex)
DatetimeIndex(['2017-04-03', '2017-04-03', '2017-04-03', '2017-04-03',
'2017-04-03', '2017-04-03', '2017-04-03', '2017-04-03',
'2017-04-03', '2017-04-03'],
dtype='datetime64[ns]', freq=None)
Спасибо за другое решение Deckerz - использование DatetimeIndex.normalize
:
myIndex = df.index.normalize()
print (myIndex)
DatetimeIndex(['2017-04-03', '2017-04-03', '2017-04-03', '2017-04-03',
'2017-04-03', '2017-04-03', '2017-04-03', '2017-04-03',
'2017-04-03', '2017-04-03'],
dtype='datetime64[ns]', freq=None)
Сроки:
ix = pd.date_range('1970-01-01', '2200-01-15', freq='1H')
print (len(ix))
2016481
In [68]: %timeit (ix.normalize())
10 loops, best of 3: 178 ms per loop
In [69]: %timeit (ix.floor('d'))
10 loops, best of 3: 38.4 ms per loop
#solution from Dror (https://stackru.com/questions/45954497/in-pandas-group-by-date-from-datetimeindex)
In [70]: %timeit pd.to_datetime(ix.date)
1 loop, best of 3: 5.09 s per loop