Библиотека для обработки.rrd(данные циклического перебора) с использованием spark
У меня есть огромные данные временных рядов в формате.rrd(циклическая база данных), хранящиеся в S3. Я планирую использовать apache spark для проведения анализа, чтобы получить другую матрицу производительности.
В настоящее время я загружаю файл.rrd из s3 и обрабатываю его с помощью библиотеки rrd4j. Я собираюсь сделать обработку для более длительных сроков как год или больше. это включает обработку сотен тысяч.rrd файлов. Я хочу, чтобы спарк-узлы получали файл прямо из s3 и запускали анализ. Как заставить spark использовать rrd4j для чтения файлов.rrd? Есть ли библиотека, которая помогает мне это сделать? Есть ли какая-то поддержка в обработке данных такого типа?
1 ответ
Искровая часть довольно проста, используйте либо wholeTextFiles
или же binaryFiles
на sparkContext
(см. документы). Согласно документации, rrd4j обычно хочет путь для создания rrd, но с RrdByteArrayBackend
Вы можете загрузить данные туда, но это может быть проблемой, потому что большая часть API защищена. Вы должны будете найти способ загрузить Array[Byte]
в rrd4j.