Как проанализировать данные файла EDIFACT с помощью apache spark?

Question

Как проанализировать данные файла EDIFACT с помощью apache spark?

Может кто-нибудь подсказать, как анализировать данные формата EDIFACT с помощью Apache spark?

У меня есть требование, так как каждый день данные EDIFACT будут записываться в ведро AWS S3. Я пытаюсь найти лучший способ преобразовать эти данные в структурированный формат с помощью Apache Spark.

1

scala apache-spark pyspark edi edifact

Источник

user6465104 12 ноя '18 в 13:29

1 ответ

Другие вопросы по тегам scala apache-spark pyspark edi edifact

user6802156 12 ноя '18 в 14:28 2018-11-12 14:28 · Answer 1 · 2018-11-12 14:28

Если у вас есть счета в формате EDIFACT, вы можете прочитать каждый из них как одну строку на счет, используя СДР. Тогда у вас будет RDD[String], который представляет распределенную коллекцию счетов. Взгляните на https://github.com/CenPC434/java-tools с помощью которого вы можете конвертировать строки EDIFACT в XML. Этот репозиторий https://github.com/databricks/spark-xml показывает, как использовать формат XML в качестве источника ввода для создания фреймов данных и выполнения множественных запросов, агрегирования и т. Д.