Описание тега apache-spark-xml

3 ответа

Ошибка нехватки памяти при чтении большого файла в Spark 2.1.0

Я хочу использовать spark для чтения большого (51 ГБ) XML-файла (на внешнем жестком диске) в информационном кадре (с помощью плагина spark-xml), выполнить простое сопоставление / фильтрацию, переупорядочить его и затем записать обратно на диск в вид…
1 ответ

Spark DataFrame xml изменить имя столбца

Я пытался загрузить XML-файлы, используя DataBricks Spark XML. Я могу загрузить данные правильно, но мне нужно изменить имя одного из столбцов и поместить его в виде отдельного тега внутри схемы. По сути, есть несколько тегов, которые должны быть сг…
1 ответ

Как я могу расширить массив в Dataframe в Scala/Spark

Я использовал пакет Databricks spark-xml для чтения XML-файла в Spark. Файл имеет следующую структуру данных: <lib> <element> <genre>Thriller</genre> <dates> <date>2000-10-01</date> <date>2020-10-01&lt…
24 июн '17 в 10:50
1 ответ

Кирпичи данных Spark CREATE TABLE - это навсегда для 1 миллиона маленьких файлов XML

У меня есть набор из 1 миллиона XML-файлов, каждый размером ~14 КБ в хранилище BLOB- объектов Azure, смонтированный в блоке данных Azure, и я пытаюсь использовать CREATE TABLE, с ожиданием одной записи для каждого файла. Эксперимент Структура содерж…
1 ответ

Spark-xml Roottag и rowtag неправильно читают xml

Я работаю над XML, который имеет структуру, как показано ниже. Я пытаюсь получить доступ к тегу 2.1.1 и его дочерним атрибутам. Итак, я дал корневой тег как tag2 и rowtag как тег 2.1.1. Код ниже возвращает ноль. Если я применяю ту же логику к tag1, …
11 дек '18 в 07:57
1 ответ

Можем ли мы создать XML-файл с конкретным узлом с помощью Spark Scala?

У меня есть еще один вопрос о Спарк и Скала. Я хочу использовать эту технологию для получения данных и создания XML. Поэтому я хочу знать, возможно ли создание узла самостоятельно (не автоматическое создание) и какую библиотеку мы можем использовать…
16 янв '19 в 18:17
0 ответов

XML в pyspark - невозможно одновременно получить доступ к значению атрибута AND для элемента

Я использую spark-xml 0.1.1-s_2.11 в Apache Spark 2.3.1, Scala 2.11 (блоки данных Azure) Я загрузил образец XML с сайта github ( https://github.com/databricks/spark-xml): <one> <two myTwoAttrib="BBBBB">two</two> <three>three&…
0 ответов

Как добавить дополнительный тег при создании файла XML из фрейма данных spark

Вот как я создаю XML-файл из парка данных парка val FFRowCount = dfMainOutputFinalWithoutNull.groupBy("DataPartition", "StatementTypeCode").count FFRowCount.coalesce(1).write.format("com.databricks.spark.xml") .option("timestampFormat", "yyyy/MM/dd …
1 ответ

Как сохранить вывод данных массива из файла spark xml в формате csv

Я удалил два своих вопроса, потому что я думал, что я был слишком большим, и я не мог объяснить это аккуратно. Поэтому я пытаюсь сделать это проще на этот раз. Так что у меня есть сложный вложенный XML. Я анализирую его в spark Scala, и я должен сох…
2 ответа

Условие NotNull не работает для условия withColumn в scala фрейма данных

Поэтому я пытаюсь добавить столбец, когда я нахожу его, но я не хочу добавлять, когда столбец отсутствует в схеме XML. Это то, что я делаю, я думаю, что я делаю что-то не так при проверке состояния. val temp = tempNew1 .withColumn("BookMark", when($…
23 апр '18 в 12:53
0 ответов

Потоковое структурирование для файлов XML

Я пытаюсь разобрать файлы XML с помощью spark xml databricks package(spark-xml_2.11 из com.databricks) с помощью structred потоковое (spark.readStream--). Во время выполнения readstream операция, это как неподдерживаемая операцияreadstream". Посовет…
26 ноя '17 в 01:55
0 ответов

Spark-xml Поколение проблема

Мы пытаемся создать XML-файл в работе spark с javaRDD и Dataframes на языке java. мы дефилируем пользовательский StructType для поддержки нашего кода элементов XML, как показано ниже JavaRDD<Row> rowRdd = FeedAttributes.map(attribute -> Row…
1 ответ

Чтение XML-файла в Spark с несколькими RowTags

Я хотел бы прочитать огромный XML-файл с 3 различными тегами RowTag в Apache Spark Dataframes. RowTag = Элемент XML, который вы интерпретируете как строку в Spark. Теги содержат разные структуры данных не перекрываются xml-spark ( https://github.com…
0 ответов

Спарк прочитать запись базы данных XML как XML inputStream вместо загрузки из пути к файлу

Из искрового документа load(): DataFrame load(path: String): DataFrame load(paths: String*): DataFrame Я определил функцию, которая читает XML-запись def ExtractData(RecID: String,table:String)={ val spark = SparkSession. builder.master("local[*]") …
25 дек '18 в 14:54
0 ответов

Хотите получить теги / атрибуты и их значения из XML в hadoop

У меня есть большой XML-файл, и я хочу извлечь атрибуты / теги и их значения из XML-файла и сохранить их в таблицах озера данных, используя hive или spark. Атрибуты / теги являются вложенными и имеют очень длинную иерархию. Я пытался использовать Hi…
1 ответ

Как конвертировать XML-файлы с несколькими строками тегов в датафреймы

У меня есть XML-файл, имеющий несколько строк. Мне нужно преобразовать этот XML-файл для правильного dataframe. я использовал spark-xml, который обрабатывает только один тег строки. Данные XML ниже <?xml version='1.0' encoding='UTF-8' ?> <g…
20 май '18 в 09:41
1 ответ

Добавление части родительского столбца схемы к дочернему элементу во вложенном json в кадре данных spark

У меня есть ниже XML, который я пытаюсь загрузить, чтобы зажечь фрейм данных. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> <env:Info> <env:Id>urn:uuid:6d2af93bfbfc49da9805aebb6a3899…
1 ответ

Почему Spark-XML на AWS Glue не работает с AbstractMethodError?

У меня есть задание AWS Glue, написанное на Python, которое использует библиотеку spark-xml (через путь зависимых jar-файлов). Я использую spark-xml_2.11-0.2.0.jar. Когда я пытаюсь вывести свой DataFrame в XML, я получаю сообщение об ошибке. Код, ко…
0 ответов

Преобразование набора данных Spark в RDD приводит к искажению данных

Я использую spark-xml для чтения следующих данных: val ds = spark.read .format("com.databricks.spark.xml") .option("rowTag", "some_tag") .load(xmlPath) .select("field1", "field2", "field3") .as[SomeCaseClass] На первый взгляд все работает отлично; к…
18 ноя '17 в 00:50
1 ответ

Выберите поля, которые начинаются с определенного шаблона: Spark XML Parsing

Я должен разобрать некоторые очень большие файлы XML. В этих XML-файлах есть несколько полей, которые я хочу извлечь, а затем выполнить с ними некоторую работу. Однако есть некоторые правила, которым я должен следовать, то есть я могу выбирать поля,…