Описание тега apache-spark-2.3

Вопросы с тегом

1 ответ

Преобразование фрейма данных pyspark в фрейм данных pandas

У меня есть pyspark dataframe, где его размерность (28002528,21), и я попытался преобразовать его в pandas dataframe, используя следующую строку кода: pd_df=spark_df.toPandas() Я получил эту ошибку: первая часть Py4JJavaError: An error occurred whil…

pandas pyspark apache-spark-2.3

25 фев '19 в 06:30

0 ответов

Не удалось запустить задание Spark2 Scala на Cloudera[5.15.0], работающем на AWS EC2

У меня есть простой Scala-код Spark, который я пытаюсь запустить на spark2 в Cloudera[5.15.0], работающем на AWS EC2. Я создал этот проект в [Scala IDE] на компьютере Mac. 1 [] 2 я использую clean package assembly:single для строительства банки след…

amazon-web-services cloudera spark-submit apache-spark-2.3

16 янв '19 в 17:36

0 ответов

Оптимальный способ чтения 100 миллионов данных из таблицы с использованием JDBC в SPARK

Я попробовал ниже код для чтения 100 миллионов строк параллельно с использованием JDBC в SPARK. Dataset<Row> txnDf = sparkSession.read().format("jdbc").option("url", connection).option("partitionColumn", "TXN_DETAIL_ID").option("numPartitions"…

apache-spark dataset apache-spark-2.0 apache-spark-2.3

22 ноя '18 в 11:36

1 ответ

Обмен данными между исполнителями в Apache Spark

Мой проект SPARK (написанный на Java) требует доступа (результаты запроса SELECT) к различным таблицам между исполнителями. Одним из решений этой проблемы является: Я создаю tempView выберите необходимые столбцы используя forEach конвертировать Data…

java apache-spark apache-spark-dataset apache-spark-2.0 apache-spark-2.3

18 дек '18 в 04:51

1 ответ

Невозможно запросить / выбрать данные, вставленные через Spark SQL

Я пытаюсь вставить данные в управляемую таблицу Hive с разделом. Показать создание выходной таблицы для справки. +--------------------------------------------------------------------------------------------------+--+ | createtab_stmt | +------------…

hadoop apache-spark-sql hive hdinsight apache-spark-2.3

12 фев '19 в 10:04

1 ответ

Приведение строки типа "[1, 2, 3]" в массив

Довольно просто. У меня есть массив, как столбец, закодированный в виде строки (varchar) и хочу разыграть array (так что я могу тогда explode это и манипулировать элементами в "длинном" формате). Два наиболее естественных подхода не работают: -- jus…

pyspark apache-spark-sql pyspark-sql apache-spark-2.3

24 фев '19 в 07:11

0 ответов

Предоставление явной схемы в DataFrame Spark2

У меня есть требование прочитать данные из CSV-файла и проверить их по явной схеме, и, если проверка схемы не удалась, выдать ошибку. Для этого я сделал следующее: 1) Определил схему public static StructField[] schema ={ new StructField("name", Data…

apache-spark-sql apache-spark-2.3

09 дек '18 в 13:04

0 ответов

Spark Structured Streaming [2.3] Поле с нулевым значением пропускается при записи в kafka

У меня есть работа со структурированной потоковой передачей, которая читает и записывает данные json в / из kafka. При записи в kafka поля в json, имеющие нулевые значения, опускаются. Есть ли способ, которым я могу написать нулевое значение поля в …

apache-spark apache-kafka spark-structured-streaming apache-spark-dataset apache-spark-2.3

04 дек '18 в 10:44

2 ответа

Не могу сохранить стол в улей metastore, HDP 3.0

Я больше не могу сохранить таблицу в базе данных улья, используя metastore. Я вижу таблицы в спарк, используя spark.sql но я не могу увидеть те же таблицы в базе данных улья. Я пробовал это, но он не хранит таблицу для улья. Как я могу настроить уле…

apache-spark hive hive-metastore apache-spark-2.3

15 ноя '18 в 16:33

1 ответ

Как собрать zeppelin 0.8.0 со встроенной искрой 2.3.2

Я хочу собрать zeppelin 0.8.0 со встроенной искрой 2.3.2 и запустить ее на той же версии spark, работающей не локально, без установки SPARK_HOME, чтобы мне не требовалось устанавливать SPARK на узле zeppelin. Я пробовал варианты сборки, приведенные …

apache-zeppelin apache-spark-2.3

16 янв '19 в 00:25

0 ответов

Искра - Операция не разрешена: изменить таблицу заменить столбцы

Выглядит как улей replace columns не работает с искрой 2.2.1, а также с 2.3.1 alterSchemaSql : alter table myschema.mytable replace columns (a int,b int,d int) Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException: Operation…

apache-spark apache-spark-sql apache-spark-2.3 apache-spark-2.2

17 дек '18 в 23:53

0 ответов

Spark spark.sql.session.timeZone не работает с источником JSON

Spark v2.3.1 зависит от местного часового пояса при чтении из файла JSON? мой src/test/resources/data/tmp.json: [ { "timestamp": "1970-01-01 00:00:00.000" } ] и искровой код: SparkSession.builder() .appName("test") .master("local") .config("spark.sq…

apache-spark apache-spark-sql apache-spark-2.3

11 ноя '18 в 17:44

0 ответов

Различное поведение метода кэширования для фреймов данных PySpark в Spark 2.3

После обновления Spark с 2.1 до 2.3 у меня возникли проблемы с кэшированными фреймами данных PySpark. В Spark 2.1 метод cache() работал для меня как глубокое копирование, хотя он не должен работать так, как следует из документации. Пример: from pysp…

dataframe apache-spark pyspark apache-spark-2.3

21 ноя '18 в 20:52

0 ответов

Кодеры для типа в наборе данных

Я работаю над переносом кода Spark с версии 1.6 на 2.3 в хранилище на основе scala и сталкиваюсь с ошибками, такими как "Невозможно найти кодировщик для типа, хранящегося в наборе данных". всякий раз, когда я выполняю map через DataFrame, Я видел пр…

scala apache-spark apache-spark-dataset apache-spark-2.3

11 фев '19 в 07:02

0 ответов

Когда нецелесообразно использовать persist() для фрейма данных искры?

Работая над улучшением производительности кода, так как у меня было много неудачных заданий (прервано), я подумал об использовании persist() функция на Spark Dataframe всякий раз, когда мне нужно использовать тот же самый dataframe для многих других…

python-2.7 apache-spark pyspark apache-spark-2.3

12 фев '19 в 15:18

1 ответ

Сбой перераспределения фрейма данных pyspark и как избежать начального размера раздела

Я пытаюсь настроить производительность spark, используя разделы на кадре данных spark. Вот код: file_path1 = spark.read.parquet(*paths[:15]) df = file_path1.select(columns) \ .where((func.col("organization") == organization)) df = df.repartition(10)…

python pyspark apache-spark-sql apache-spark-2.3

25 фев '19 в 11:51

0 ответов

Изменение количества разделов pyspark dataframe, считанных из паркета

Я хочу понять, как spark обрабатывает чтение Dataframe из файлов паркета и каковы свойства приложения Yarn или свойства sparkConf, которые влияют на количество разделов при выполнении первого действия на этом кадре данных. Контекст: У меня есть парк…

python dataframe apache-spark parquet apache-spark-2.3

25 фев '19 в 16:02

1 ответ

Pyspark объединяет столбец StructType как массив его элементов для каждой строки

Я пытаюсь сделать что-то, что кажется довольно простым, но почему-то не могу понять, как это сделать с pyspark. У меня есть df с двумя столбцами (для упрощения) 'id' и 'strcol', с возможными идентификаторами дубликатов Я хочу сделать df.groupBy('id'…

python pyspark aggregate apache-spark-2.3

31 май '19 в 15:30

1 ответ

Создать новый столбец в фрейме данных pyspark, используя существующие столбцы

Я пытаюсь работать с фреймами данных Pyspark, и я хотел бы знать, как я могу создать и заполнить новый столбец, используя существующие столбцы. Допустим, у меня есть датафрейм, который выглядит так: +-----+---+---+ | _1| _2| _3| +-----+---+---+ |x1-…

python-2.7 pyspark apache-spark-sql apache-spark-2.3

15 мар '19 в 05:35

0 ответов

regroupBy, по-видимому, принудительно пересчитывает Spark DataFrame

Я испытываю странное поведение при использовании Spark 2.3.0 со Scala, и мне нужен совет. У меня есть DataFrame, давайте назовем его elemsDF, который выглядит так: +--------------------+--------------------+--------+----------+-----------+----------…

scala apache-spark apache-spark-2.3

17 апр '19 в 09:43