Как прочитать файл последовательности, созданный заданием Java MR в Pyspark?
У меня есть работа MR, которая производит файл последовательности с ключом в качестве экземпляра класса Java MyJavaKey
и значение другого объекта Java RecordInfo
,
Мне нужно использовать работу PySpark, чтобы прочитать этот файл в Python.
Это вообще возможно? Как бы я прочитал эти два Java-объекта в pySpark? Кроме того, как бы я получить доступ к полям объекта в Python? Требуется ли какое-то отображение от объекта Java к Python?
РЕДАКТИРОВАТЬ:
Этот вопрос не является дубликатом файла последовательности чтения в PySpark 2.0, поскольку он дает простой пример Text
класс, который является записываемым классом, который выходит из коробки в Hadoop. Однако в этом случае ключ и значение файла последовательности являются пользовательскими классами Java.