Описание тега apache-spark-2.3
1
ответ
Преобразование фрейма данных pyspark в фрейм данных pandas
У меня есть pyspark dataframe, где его размерность (28002528,21), и я попытался преобразовать его в pandas dataframe, используя следующую строку кода: pd_df=spark_df.toPandas() Я получил эту ошибку: первая часть Py4JJavaError: An error occurred whil…
25 фев '19 в 06:30
0
ответов
Не удалось запустить задание Spark2 Scala на Cloudera[5.15.0], работающем на AWS EC2
У меня есть простой Scala-код Spark, который я пытаюсь запустить на spark2 в Cloudera[5.15.0], работающем на AWS EC2. Я создал этот проект в [Scala IDE] на компьютере Mac. 1 [] 2 я использую clean package assembly:single для строительства банки след…
16 янв '19 в 17:36
0
ответов
Оптимальный способ чтения 100 миллионов данных из таблицы с использованием JDBC в SPARK
Я попробовал ниже код для чтения 100 миллионов строк параллельно с использованием JDBC в SPARK. Dataset<Row> txnDf = sparkSession.read().format("jdbc").option("url", connection).option("partitionColumn", "TXN_DETAIL_ID").option("numPartitions"…
22 ноя '18 в 11:36
1
ответ
Обмен данными между исполнителями в Apache Spark
Мой проект SPARK (написанный на Java) требует доступа (результаты запроса SELECT) к различным таблицам между исполнителями. Одним из решений этой проблемы является: Я создаю tempView выберите необходимые столбцы используя forEach конвертировать Data…
18 дек '18 в 04:51
1
ответ
Невозможно запросить / выбрать данные, вставленные через Spark SQL
Я пытаюсь вставить данные в управляемую таблицу Hive с разделом. Показать создание выходной таблицы для справки. +--------------------------------------------------------------------------------------------------+--+ | createtab_stmt | +------------…
12 фев '19 в 10:04
1
ответ
Приведение строки типа "[1, 2, 3]" в массив
Довольно просто. У меня есть массив, как столбец, закодированный в виде строки (varchar) и хочу разыграть array (так что я могу тогда explode это и манипулировать элементами в "длинном" формате). Два наиболее естественных подхода не работают: -- jus…
24 фев '19 в 07:11
0
ответов
Предоставление явной схемы в DataFrame Spark2
У меня есть требование прочитать данные из CSV-файла и проверить их по явной схеме, и, если проверка схемы не удалась, выдать ошибку. Для этого я сделал следующее: 1) Определил схему public static StructField[] schema ={ new StructField("name", Data…
09 дек '18 в 13:04
0
ответов
Spark Structured Streaming [2.3] Поле с нулевым значением пропускается при записи в kafka
У меня есть работа со структурированной потоковой передачей, которая читает и записывает данные json в / из kafka. При записи в kafka поля в json, имеющие нулевые значения, опускаются. Есть ли способ, которым я могу написать нулевое значение поля в …
04 дек '18 в 10:44
2
ответа
Не могу сохранить стол в улей metastore, HDP 3.0
Я больше не могу сохранить таблицу в базе данных улья, используя metastore. Я вижу таблицы в спарк, используя spark.sql но я не могу увидеть те же таблицы в базе данных улья. Я пробовал это, но он не хранит таблицу для улья. Как я могу настроить уле…
15 ноя '18 в 16:33
1
ответ
Как собрать zeppelin 0.8.0 со встроенной искрой 2.3.2
Я хочу собрать zeppelin 0.8.0 со встроенной искрой 2.3.2 и запустить ее на той же версии spark, работающей не локально, без установки SPARK_HOME, чтобы мне не требовалось устанавливать SPARK на узле zeppelin. Я пробовал варианты сборки, приведенные …
16 янв '19 в 00:25
0
ответов
Искра - Операция не разрешена: изменить таблицу заменить столбцы
Выглядит как улей replace columns не работает с искрой 2.2.1, а также с 2.3.1 alterSchemaSql : alter table myschema.mytable replace columns (a int,b int,d int) Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException: Operation…
17 дек '18 в 23:53
0
ответов
Spark spark.sql.session.timeZone не работает с источником JSON
Spark v2.3.1 зависит от местного часового пояса при чтении из файла JSON? мой src/test/resources/data/tmp.json: [ { "timestamp": "1970-01-01 00:00:00.000" } ] и искровой код: SparkSession.builder() .appName("test") .master("local") .config("spark.sq…
11 ноя '18 в 17:44
0
ответов
Различное поведение метода кэширования для фреймов данных PySpark в Spark 2.3
После обновления Spark с 2.1 до 2.3 у меня возникли проблемы с кэшированными фреймами данных PySpark. В Spark 2.1 метод cache() работал для меня как глубокое копирование, хотя он не должен работать так, как следует из документации. Пример: from pysp…
21 ноя '18 в 20:52
0
ответов
Кодеры для типа в наборе данных
Я работаю над переносом кода Spark с версии 1.6 на 2.3 в хранилище на основе scala и сталкиваюсь с ошибками, такими как "Невозможно найти кодировщик для типа, хранящегося в наборе данных". всякий раз, когда я выполняю map через DataFrame, Я видел пр…
11 фев '19 в 07:02
0
ответов
Когда нецелесообразно использовать persist() для фрейма данных искры?
Работая над улучшением производительности кода, так как у меня было много неудачных заданий (прервано), я подумал об использовании persist() функция на Spark Dataframe всякий раз, когда мне нужно использовать тот же самый dataframe для многих других…
12 фев '19 в 15:18
1
ответ
Сбой перераспределения фрейма данных pyspark и как избежать начального размера раздела
Я пытаюсь настроить производительность spark, используя разделы на кадре данных spark. Вот код: file_path1 = spark.read.parquet(*paths[:15]) df = file_path1.select(columns) \ .where((func.col("organization") == organization)) df = df.repartition(10)…
25 фев '19 в 11:51
0
ответов
Изменение количества разделов pyspark dataframe, считанных из паркета
Я хочу понять, как spark обрабатывает чтение Dataframe из файлов паркета и каковы свойства приложения Yarn или свойства sparkConf, которые влияют на количество разделов при выполнении первого действия на этом кадре данных. Контекст: У меня есть парк…
25 фев '19 в 16:02
1
ответ
Pyspark объединяет столбец StructType как массив его элементов для каждой строки
Я пытаюсь сделать что-то, что кажется довольно простым, но почему-то не могу понять, как это сделать с pyspark. У меня есть df с двумя столбцами (для упрощения) 'id' и 'strcol', с возможными идентификаторами дубликатов Я хочу сделать df.groupBy('id'…
31 май '19 в 15:30
1
ответ
Создать новый столбец в фрейме данных pyspark, используя существующие столбцы
Я пытаюсь работать с фреймами данных Pyspark, и я хотел бы знать, как я могу создать и заполнить новый столбец, используя существующие столбцы. Допустим, у меня есть датафрейм, который выглядит так: +-----+---+---+ | _1| _2| _3| +-----+---+---+ |x1-…
15 мар '19 в 05:35
0
ответов
regroupBy, по-видимому, принудительно пересчитывает Spark DataFrame
Я испытываю странное поведение при использовании Spark 2.3.0 со Scala, и мне нужен совет. У меня есть DataFrame, давайте назовем его elemsDF, который выглядит так: +--------------------+--------------------+--------+----------+-----------+----------…
17 апр '19 в 09:43