Лучший способ автоматизировать получение данных из CSV-файлов в Datalake

Question

Лучший способ автоматизировать получение данных из CSV-файлов в Datalake

Мне нужно получить данные из CSV-файлов (ежедневное извлечение из различных бизнес-баз данных) в HDFS, а затем переместить их в Hbase и, наконец, взимать плату за эти данные на datamart (sqlServer).

Я хотел бы знать лучший способ автоматизировать этот процесс (с помощью инструментов Java или Hadoops)

0

hadoop hdfs bigdata hbase datamart

Источник

user7321766 12 сен '17 в 15:17

2 ответа

Другие вопросы по тегам hadoop hdfs bigdata hbase datamart

user350613 14 сен '17 в 07:56 2017-09-14 07:56 · Answer 1 · 2017-09-14 07:56

Я бы повторил комментарий выше. Kafka Connect, который является частью Apache Kafka. При этом вы просто используете файлы конфигурации для потоковой передачи из ваших источников, вы можете использовать KSQL для создания производных / обогащенных / агрегированных потоков, а затем передавать их в HDFS/Elastic/HBase/JDBC/ и т. Д. И т. Д. И т. Д.

Здесь есть список соединителей Kafka Connect.

Эта серия блогов посвящена основам:

user2308683 13 сен '17 в 01:32 2017-09-13 01:32 · Answer 2 · 2017-09-13 01:32

Мало ли кодирование не требуется? Без определенного порядка

Talend Open Studio
Сборщик данных Streamsets
Apache Nifi

Предполагая, что вы можете настроить кластер Kafka, вы можете попробовать Kafka Connect

Если вы хотите что-то запрограммировать, вероятно, Spark. В противном случае выберите свой любимый язык. Запланируйте работу через Oozie

Если вам не нужны необработанные данные HDFS, вы можете загрузить их непосредственно в HBase