SQL для MapReduce - Как?
У меня сложный запрос, используемый в процессе ETL (на основе SQL). Он слишком велик, чтобы уместиться здесь, но в целом мало внутренних соединений между несколькими таблицами и некоторыми BL с использованием оконных функций и других "вкусностей". Мне нужно перенести его на Hadoop MapReduce. просто выведите все таблицы в случаях ОТ в формат CSV и перенесите файлы в HDFS. Затем напишите задания MapReduce, которые копируют логику, реализованную в SQL.
Интересно: есть ли какие-либо рекомендации / рекомендации / подводные камни, о которых мне следует знать при переносе SQL в MapReduce?
В моем случае поиск в Google был бесполезен, поскольку результаты были либо слишком конкретными, либо некоторыми научными работами без практических советов.
1 ответ
Вы можете рассматривать sqoop как один из вариантов передачи данных между Hadoop и структурированными хранилищами данных.
Кроме того, эта ссылка может быть полезна - http://www.ibm.com/developerworks/library/bd-sqltohadoop1/