Описание тега apache-spark-xml
3
ответа
Ошибка нехватки памяти при чтении большого файла в Spark 2.1.0
Я хочу использовать spark для чтения большого (51 ГБ) XML-файла (на внешнем жестком диске) в информационном кадре (с помощью плагина spark-xml), выполнить простое сопоставление / фильтрацию, переупорядочить его и затем записать обратно на диск в вид…
05 май '17 в 04:18
1
ответ
Spark DataFrame xml изменить имя столбца
Я пытался загрузить XML-файлы, используя DataBricks Spark XML. Я могу загрузить данные правильно, но мне нужно изменить имя одного из столбцов и поместить его в виде отдельного тега внутри схемы. По сути, есть несколько тегов, которые должны быть сг…
24 авг '17 в 09:31
1
ответ
Как я могу расширить массив в Dataframe в Scala/Spark
Я использовал пакет Databricks spark-xml для чтения XML-файла в Spark. Файл имеет следующую структуру данных: <lib> <element> <genre>Thriller</genre> <dates> <date>2000-10-01</date> <date>2020-10-01<…
24 июн '17 в 10:50
1
ответ
Кирпичи данных Spark CREATE TABLE - это навсегда для 1 миллиона маленьких файлов XML
У меня есть набор из 1 миллиона XML-файлов, каждый размером ~14 КБ в хранилище BLOB- объектов Azure, смонтированный в блоке данных Azure, и я пытаюсь использовать CREATE TABLE, с ожиданием одной записи для каждого файла. Эксперимент Структура содерж…
22 фев '19 в 09:18
1
ответ
Spark-xml Roottag и rowtag неправильно читают xml
Я работаю над XML, который имеет структуру, как показано ниже. Я пытаюсь получить доступ к тегу 2.1.1 и его дочерним атрибутам. Итак, я дал корневой тег как tag2 и rowtag как тег 2.1.1. Код ниже возвращает ноль. Если я применяю ту же логику к tag1, …
11 дек '18 в 07:57
1
ответ
Можем ли мы создать XML-файл с конкретным узлом с помощью Spark Scala?
У меня есть еще один вопрос о Спарк и Скала. Я хочу использовать эту технологию для получения данных и создания XML. Поэтому я хочу знать, возможно ли создание узла самостоятельно (не автоматическое создание) и какую библиотеку мы можем использовать…
16 янв '19 в 18:17
0
ответов
XML в pyspark - невозможно одновременно получить доступ к значению атрибута AND для элемента
Я использую spark-xml 0.1.1-s_2.11 в Apache Spark 2.3.1, Scala 2.11 (блоки данных Azure) Я загрузил образец XML с сайта github ( https://github.com/databricks/spark-xml): <one> <two myTwoAttrib="BBBBB">two</two> <three>three&…
29 ноя '18 в 15:14
0
ответов
Как добавить дополнительный тег при создании файла XML из фрейма данных spark
Вот как я создаю XML-файл из парка данных парка val FFRowCount = dfMainOutputFinalWithoutNull.groupBy("DataPartition", "StatementTypeCode").count FFRowCount.coalesce(1).write.format("com.databricks.spark.xml") .option("timestampFormat", "yyyy/MM/dd …
12 мар '18 в 09:39
1
ответ
Как сохранить вывод данных массива из файла spark xml в формате csv
Я удалил два своих вопроса, потому что я думал, что я был слишком большим, и я не мог объяснить это аккуратно. Поэтому я пытаюсь сделать это проще на этот раз. Так что у меня есть сложный вложенный XML. Я анализирую его в spark Scala, и я должен сох…
05 фев '18 в 11:22
2
ответа
Условие NotNull не работает для условия withColumn в scala фрейма данных
Поэтому я пытаюсь добавить столбец, когда я нахожу его, но я не хочу добавлять, когда столбец отсутствует в схеме XML. Это то, что я делаю, я думаю, что я делаю что-то не так при проверке состояния. val temp = tempNew1 .withColumn("BookMark", when($…
23 апр '18 в 12:53
0
ответов
Потоковое структурирование для файлов XML
Я пытаюсь разобрать файлы XML с помощью spark xml databricks package(spark-xml_2.11 из com.databricks) с помощью structred потоковое (spark.readStream--). Во время выполнения readstream операция, это как неподдерживаемая операцияreadstream". Посовет…
26 ноя '17 в 01:55
0
ответов
Spark-xml Поколение проблема
Мы пытаемся создать XML-файл в работе spark с javaRDD и Dataframes на языке java. мы дефилируем пользовательский StructType для поддержки нашего кода элементов XML, как показано ниже JavaRDD<Row> rowRdd = FeedAttributes.map(attribute -> Row…
23 мар '18 в 01:44
1
ответ
Чтение XML-файла в Spark с несколькими RowTags
Я хотел бы прочитать огромный XML-файл с 3 различными тегами RowTag в Apache Spark Dataframes. RowTag = Элемент XML, который вы интерпретируете как строку в Spark. Теги содержат разные структуры данных не перекрываются xml-spark ( https://github.com…
18 авг '17 в 09:01
0
ответов
Спарк прочитать запись базы данных XML как XML inputStream вместо загрузки из пути к файлу
Из искрового документа load(): DataFrame load(path: String): DataFrame load(paths: String*): DataFrame Я определил функцию, которая читает XML-запись def ExtractData(RecID: String,table:String)={ val spark = SparkSession. builder.master("local[*]") …
25 дек '18 в 14:54
0
ответов
Хотите получить теги / атрибуты и их значения из XML в hadoop
У меня есть большой XML-файл, и я хочу извлечь атрибуты / теги и их значения из XML-файла и сохранить их в таблицах озера данных, используя hive или spark. Атрибуты / теги являются вложенными и имеют очень длинную иерархию. Я пытался использовать Hi…
19 фев '19 в 11:44
1
ответ
Как конвертировать XML-файлы с несколькими строками тегов в датафреймы
У меня есть XML-файл, имеющий несколько строк. Мне нужно преобразовать этот XML-файл для правильного dataframe. я использовал spark-xml, который обрабатывает только один тег строки. Данные XML ниже <?xml version='1.0' encoding='UTF-8' ?> <g…
20 май '18 в 09:41
1
ответ
Добавление части родительского столбца схемы к дочернему элементу во вложенном json в кадре данных spark
У меня есть ниже XML, который я пытаюсь загрузить, чтобы зажечь фрейм данных. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> <env:Info> <env:Id>urn:uuid:6d2af93bfbfc49da9805aebb6a3899…
07 фев '18 в 18:05
1
ответ
Почему Spark-XML на AWS Glue не работает с AbstractMethodError?
У меня есть задание AWS Glue, написанное на Python, которое использует библиотеку spark-xml (через путь зависимых jar-файлов). Я использую spark-xml_2.11-0.2.0.jar. Когда я пытаюсь вывести свой DataFrame в XML, я получаю сообщение об ошибке. Код, ко…
06 фев '18 в 05:50
0
ответов
Преобразование набора данных Spark в RDD приводит к искажению данных
Я использую spark-xml для чтения следующих данных: val ds = spark.read .format("com.databricks.spark.xml") .option("rowTag", "some_tag") .load(xmlPath) .select("field1", "field2", "field3") .as[SomeCaseClass] На первый взгляд все работает отлично; к…
18 ноя '17 в 00:50
1
ответ
Выберите поля, которые начинаются с определенного шаблона: Spark XML Parsing
Я должен разобрать некоторые очень большие файлы XML. В этих XML-файлах есть несколько полей, которые я хочу извлечь, а затем выполнить с ними некоторую работу. Однако есть некоторые правила, которым я должен следовать, то есть я могу выбирать поля,…
12 июн '18 в 23:14