Описание тега apache-spark-2.3

1 ответ

Преобразование фрейма данных pyspark в фрейм данных pandas

У меня есть pyspark dataframe, где его размерность (28002528,21), и я попытался преобразовать его в pandas dataframe, используя следующую строку кода: pd_df=spark_df.toPandas() Я получил эту ошибку: первая часть Py4JJavaError: An error occurred whil…
25 фев '19 в 06:30
0 ответов

Не удалось запустить задание Spark2 Scala на Cloudera[5.15.0], работающем на AWS EC2

У меня есть простой Scala-код Spark, который я пытаюсь запустить на spark2 в Cloudera[5.15.0], работающем на AWS EC2. Я создал этот проект в [Scala IDE] на компьютере Mac. 1 [] 2 я использую clean package assembly:single для строительства банки след…
0 ответов

Оптимальный способ чтения 100 миллионов данных из таблицы с использованием JDBC в SPARK

Я попробовал ниже код для чтения 100 миллионов строк параллельно с использованием JDBC в SPARK. Dataset<Row> txnDf = sparkSession.read().format("jdbc").option("url", connection).option("partitionColumn", "TXN_DETAIL_ID").option("numPartitions"…
1 ответ

Обмен данными между исполнителями в Apache Spark

Мой проект SPARK (написанный на Java) требует доступа (результаты запроса SELECT) к различным таблицам между исполнителями. Одним из решений этой проблемы является: Я создаю tempView выберите необходимые столбцы используя forEach конвертировать Data…
1 ответ

Невозможно запросить / выбрать данные, вставленные через Spark SQL

Я пытаюсь вставить данные в управляемую таблицу Hive с разделом. Показать создание выходной таблицы для справки. +--------------------------------------------------------------------------------------------------+--+ | createtab_stmt | +------------…
1 ответ

Приведение строки типа "[1, 2, 3]" в массив

Довольно просто. У меня есть массив, как столбец, закодированный в виде строки (varchar) и хочу разыграть array (так что я могу тогда explode это и манипулировать элементами в "длинном" формате). Два наиболее естественных подхода не работают: -- jus…
0 ответов

Предоставление явной схемы в DataFrame Spark2

У меня есть требование прочитать данные из CSV-файла и проверить их по явной схеме, и, если проверка схемы не удалась, выдать ошибку. Для этого я сделал следующее: 1) Определил схему public static StructField[] schema ={ new StructField("name", Data…
09 дек '18 в 13:04
0 ответов

Spark Structured Streaming [2.3] Поле с нулевым значением пропускается при записи в kafka

У меня есть работа со структурированной потоковой передачей, которая читает и записывает данные json в / из kafka. При записи в kafka поля в json, имеющие нулевые значения, опускаются. Есть ли способ, которым я могу написать нулевое значение поля в …
2 ответа

Не могу сохранить стол в улей metastore, HDP 3.0

Я больше не могу сохранить таблицу в базе данных улья, используя metastore. Я вижу таблицы в спарк, используя spark.sql но я не могу увидеть те же таблицы в базе данных улья. Я пробовал это, но он не хранит таблицу для улья. Как я могу настроить уле…
1 ответ

Как собрать zeppelin 0.8.0 со встроенной искрой 2.3.2

Я хочу собрать zeppelin 0.8.0 со встроенной искрой 2.3.2 и запустить ее на той же версии spark, работающей не локально, без установки SPARK_HOME, чтобы мне не требовалось устанавливать SPARK на узле zeppelin. Я пробовал варианты сборки, приведенные …
16 янв '19 в 00:25
0 ответов

Искра - Операция не разрешена: изменить таблицу заменить столбцы

Выглядит как улей replace columns не работает с искрой 2.2.1, а также с 2.3.1 alterSchemaSql : alter table myschema.mytable replace columns (a int,b int,d int) Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException: Operation…
0 ответов

Spark spark.sql.session.timeZone не работает с источником JSON

Spark v2.3.1 зависит от местного часового пояса при чтении из файла JSON? мой src/test/resources/data/tmp.json: [ { "timestamp": "1970-01-01 00:00:00.000" } ] и искровой код: SparkSession.builder() .appName("test") .master("local") .config("spark.sq…
0 ответов

Различное поведение метода кэширования для фреймов данных PySpark в Spark 2.3

После обновления Spark с 2.1 до 2.3 у меня возникли проблемы с кэшированными фреймами данных PySpark. В Spark 2.1 метод cache() работал для меня как глубокое копирование, хотя он не должен работать так, как следует из документации. Пример: from pysp…
0 ответов

Кодеры для типа в наборе данных

Я работаю над переносом кода Spark с версии 1.6 на 2.3 в хранилище на основе scala и сталкиваюсь с ошибками, такими как "Невозможно найти кодировщик для типа, хранящегося в наборе данных". всякий раз, когда я выполняю map через DataFrame, Я видел пр…
0 ответов

Когда нецелесообразно использовать persist() для фрейма данных искры?

Работая над улучшением производительности кода, так как у меня было много неудачных заданий (прервано), я подумал об использовании persist() функция на Spark Dataframe всякий раз, когда мне нужно использовать тот же самый dataframe для многих других…
1 ответ

Сбой перераспределения фрейма данных pyspark и как избежать начального размера раздела

Я пытаюсь настроить производительность spark, используя разделы на кадре данных spark. Вот код: file_path1 = spark.read.parquet(*paths[:15]) df = file_path1.select(columns) \ .where((func.col("organization") == organization)) df = df.repartition(10)…
0 ответов

Изменение количества разделов pyspark dataframe, считанных из паркета

Я хочу понять, как spark обрабатывает чтение Dataframe из файлов паркета и каковы свойства приложения Yarn или свойства sparkConf, которые влияют на количество разделов при выполнении первого действия на этом кадре данных. Контекст: У меня есть парк…
1 ответ

Pyspark объединяет столбец StructType как массив его элементов для каждой строки

Я пытаюсь сделать что-то, что кажется довольно простым, но почему-то не могу понять, как это сделать с pyspark. У меня есть df с двумя столбцами (для упрощения) 'id' и 'strcol', с возможными идентификаторами дубликатов Я хочу сделать df.groupBy('id'…
31 май '19 в 15:30
1 ответ

Создать новый столбец в фрейме данных pyspark, используя существующие столбцы

Я пытаюсь работать с фреймами данных Pyspark, и я хотел бы знать, как я могу создать и заполнить новый столбец, используя существующие столбцы. Допустим, у меня есть датафрейм, который выглядит так: +-----+---+---+ | _1| _2| _3| +-----+---+---+ |x1-…
0 ответов

regroupBy, по-видимому, принудительно пересчитывает Spark DataFrame

Я испытываю странное поведение при использовании Spark 2.3.0 со Scala, и мне нужен совет. У меня есть DataFrame, давайте назовем его elemsDF, который выглядит так: +--------------------+--------------------+--------+----------+-----------+----------…
17 апр '19 в 09:43