Библиотека для обработки.rrd(данные циклического перебора) с использованием spark

У меня есть огромные данные временных рядов в формате.rrd(циклическая база данных), хранящиеся в S3. Я планирую использовать apache spark для проведения анализа, чтобы получить другую матрицу производительности.

В настоящее время я загружаю файл.rrd из s3 и обрабатываю его с помощью библиотеки rrd4j. Я собираюсь сделать обработку для более длительных сроков как год или больше. это включает обработку сотен тысяч.rrd файлов. Я хочу, чтобы спарк-узлы получали файл прямо из s3 и запускали анализ. Как заставить spark использовать rrd4j для чтения файлов.rrd? Есть ли библиотека, которая помогает мне это сделать? Есть ли какая-то поддержка в обработке данных такого типа?

1 ответ

Искровая часть довольно проста, используйте либо wholeTextFiles или же binaryFiles на sparkContext (см. документы). Согласно документации, rrd4j обычно хочет путь для создания rrd, но с RrdByteArrayBackendВы можете загрузить данные туда, но это может быть проблемой, потому что большая часть API защищена. Вы должны будете найти способ загрузить Array[Byte] в rrd4j.

Другие вопросы по тегам