Потоковая запись данных в HDFS с высокой пропускной способностью
У меня есть данные от большого количества датчиков (> 500), и мне нужно записать эти данные на мою HDFS. Датчики отправляют данные почти каждую 1 секунду, а размер каждой передаваемой информации составляет ~300B. Проблема в том, что я уже сталкивался с тем, что всякий раз, когда я начинаю загружать много файлов HDFS с помощью режима добавления, он начинает вызывать много исключений и застревает. Мне нужно найти способ справиться с этим огромным количеством записей в секунду, например, перейти на средний уровень, в котором хранятся данные, а затем медленно помещать их в HDFS. Я не знаю, подойдет ли для этого какая-либо БД, и если да, то какая из них лучше?
ОБНОВЛЕНИЕ: я посмотрел вокруг, и довольно трудно понять предел и потенциал различных решений.
- По-видимому, такие технологии, как Kafka, могут обрабатывать "сотни мегабайт операций чтения и записи в секунду с тысяч клиентов".
- Существуют и другие технологии, некоторые из которых построены на самой Kafka, как Confluent, но как это улучшает написание, мне до сих пор не ясно.
- Кроме того, существуют другие структуры, называемые "Уровни ведения журнала" (более или менее), которые обеспечивают этот вид среднего уровня, управляющего записью. Наиболее рекламируемые продукты - это Fluentd и Logstash.
- Наконец, Spark - это потоковый компонент Spark Streaming, который должен каким-то образом управлять потоковой передачей большого количества данных.
Теперь мой вопрос: сталкивался ли кто-нибудь с подобными проблемами, и это может быть хорошим решением для моего случая.
1 ответ
Я не могу помочь вам с пропускной способностью HDFS, но так как вы упомянули средний уровень, я перечислю некоторые из наиболее часто используемых хранилищ данных в сочетании со Spark, которые обычно предлагают высокую скорость записи (я думаю, вы также пытаетесь использовать Spark?). Я подозреваю, что большинство или все способны записывать обратно в HDFS.
То, что является "лучшим", - это вопрос мнения, который обычно не одобряется в Stackru. С некоторыми копаниями, однако, вы можете найти ориентиры, а что нет.