Управление столбцом набора данных в r hadoop
У меня есть набор данных, у которого есть дата (10.01.2015, 1/10/2016, 1/10/2017). Я хочу изменить его формат следующим образом (2015, 2016, 2017). Мне нужно сделать это с помощью Hadoop.
1 ответ
Решение
Используйте выражение регулярного выражения, чтобы извлечь требуемое значение.
Хороший учебник с примерами можно найти в этом блоге: Извлечение даты в необходимых форматах из таблиц улья
Если вы хотите использовать только год и месяц в формате "гггг-мм", используйте
regexp_extract(column_datetime,'(.*\-.*)\-.*',1)
РЕДАКТИРОВАТЬ: Первоначально ^ это ^ был опубликован как комментарий, но я обернул его как ответ, чтобы другие люди могли найти его быстрее.
По-другому
select regexp_replace('1/10/2015, 1/10/2016, 1/10/2017','(\\d/\\d\\d/)','') rr