Как прочитать файл последовательности, созданный заданием Java MR в Pyspark?

Question

Как прочитать файл последовательности, созданный заданием Java MR в Pyspark?

У меня есть работа MR, которая производит файл последовательности с ключом в качестве экземпляра класса Java MyJavaKey и значение другого объекта Java RecordInfo,

Мне нужно использовать работу PySpark, чтобы прочитать этот файл в Python.

Это вообще возможно? Как бы я прочитал эти два Java-объекта в pySpark? Кроме того, как бы я получить доступ к полям объекта в Python? Требуется ли какое-то отображение от объекта Java к Python?

РЕДАКТИРОВАТЬ:

Этот вопрос не является дубликатом файла последовательности чтения в PySpark 2.0, поскольку он дает простой пример Text класс, который является записываемым классом, который выходит из коробки в Hadoop. Однако в этом случае ключ и значение файла последовательности являются пользовательскими классами Java.

0

python java apache-spark pyspark sequencefile

Источник

user896663 15 фев '19 в 05:36

0 ответов

Другие вопросы по тегам python java apache-spark pyspark sequencefile