Apache Spark: чтение двух файлов (полное внешнее объединение) как главного-подчиненного в Java
У меня есть два входных файла - давайте назовем их master и slave. Основываясь на общем ключе, я хочу присоединиться к ним (оставить слева и справа для нулевых значений на другой стороне) и по порядку.
Таким образом, в конечном итоге конечным результатом является любой вид Java RDD, который выглядит как
<master record, slave record>
и есть нулевые значения, где другой не существует.
Я не хочу использовать длительные операции, такие как сортировка, архивирование по ключу или объединение. Я ищу специальный ридер, который я могу написать, чтобы мне не приходилось читать эти файлы отдельно и присоединяться к ним позже. Есть идеи, как я могу их написать?
Спасибо!
редактировать: я не ищу готовый код. Простое руководство / план также помогает