Библиотека для обработки.rrd(данные циклического перебора) с использованием spark

Question

Библиотека для обработки.rrd(данные циклического перебора) с использованием spark

У меня есть огромные данные временных рядов в формате.rrd(циклическая база данных), хранящиеся в S3. Я планирую использовать apache spark для проведения анализа, чтобы получить другую матрицу производительности.

В настоящее время я загружаю файл.rrd из s3 и обрабатываю его с помощью библиотеки rrd4j. Я собираюсь сделать обработку для более длительных сроков как год или больше. это включает обработку сотен тысяч.rrd файлов. Я хочу, чтобы спарк-узлы получали файл прямо из s3 и запускали анализ. Как заставить spark использовать rrd4j для чтения файлов.rrd? Есть ли библиотека, которая помогает мне это сделать? Есть ли какая-то поддержка в обработке данных такого типа?

0

apache-spark spark-streaming rrdtool

Источник

user4689873 24 сен '15 в 07:10

1 ответ

Другие вопросы по тегам apache-spark spark-streaming rrdtool

user411944 25 сен '15 в 08:20 2015-09-25 08:20 · Answer 1 · 2015-09-25 08:20

Искровая часть довольно проста, используйте либо wholeTextFiles или же binaryFiles на sparkContext (см. документы). Согласно документации, rrd4j обычно хочет путь для создания rrd, но с RrdByteArrayBackendВы можете загрузить данные туда, но это может быть проблемой, потому что большая часть API защищена. Вы должны будете найти способ загрузить Array[Byte] в rrd4j.