Как проанализировать данные файла EDIFACT с помощью apache spark?

Может кто-нибудь подсказать, как анализировать данные формата EDIFACT с помощью Apache spark?

У меня есть требование, так как каждый день данные EDIFACT будут записываться в ведро AWS S3. Я пытаюсь найти лучший способ преобразовать эти данные в структурированный формат с помощью Apache Spark.

1 ответ

Если у вас есть счета в формате EDIFACT, вы можете прочитать каждый из них как одну строку на счет, используя СДР. Тогда у вас будет RDD[String], который представляет распределенную коллекцию счетов. Взгляните на https://github.com/CenPC434/java-tools с помощью которого вы можете конвертировать строки EDIFACT в XML. Этот репозиторий https://github.com/databricks/spark-xml показывает, как использовать формат XML в качестве источника ввода для создания фреймов данных и выполнения множественных запросов, агрегирования и т. Д.

Другие вопросы по тегам