Apache Spark: чтение двух файлов (полное внешнее объединение) как главного-подчиненного в Java

Question

Apache Spark: чтение двух файлов (полное внешнее объединение) как главного-подчиненного в Java

У меня есть два входных файла - давайте назовем их master и slave. Основываясь на общем ключе, я хочу присоединиться к ним (оставить слева и справа для нулевых значений на другой стороне) и по порядку.

Таким образом, в конечном итоге конечным результатом является любой вид Java RDD, который выглядит как

<master record, slave record>

и есть нулевые значения, где другой не существует.

Я не хочу использовать длительные операции, такие как сортировка, архивирование по ключу или объединение. Я ищу специальный ридер, который я могу написать, чтобы мне не приходилось читать эти файлы отдельно и присоединяться к ним позже. Есть идеи, как я могу их написать?

Спасибо!

редактировать: я не ищу готовый код. Простое руководство / план также помогает

2

java apache-spark join reader

Источник

user7911127 24 апр '17 в 01:16

0 ответов

Другие вопросы по тегам java apache-spark join reader