Описание тега pyspark-dataframes

Вопросы с тегом

1 ответ

Как создать столбец BinaryType, используя несколько столбцов PySpark Dataframe?

Я недавно начал работать с pySpark, поэтому не знаю о многих деталях, касающихся этого. Я пытаюсь создать столбец BinaryType во фрейме данных? Но изо всех сил, чтобы сделать это... например, давайте возьмем простой DF df.show(2) +---+----------+ | c…

24 авг '19 в 10:56

2 ответа

Как присоединиться к двум Spark DataFrame и управлять их колонкой общего доступа?

У меня есть 2 DataFrame, как это: +--+-----------+ |id|some_string| +--+-----------+ | a| foo| | b| bar| | c| egg| | d| fog| +--+-----------+ и это: +--+-----------+ |id|some_string| +--+-----------+ | a| hoi| | b| hei| | c| hai| | e| hui| +--+-----…

python pyspark pyspark-dataframes

26 авг '19 в 10:03

3 ответа

PySpark: TypeError: объект 'str' не вызывается в операциях с кадрами данных

Я читаю файлы из папки в цикле и создаю кадры данных из них. Тем не менее, я получаю эту странную ошибку TypeError: 'str' object is not callable, Пожалуйста, найдите код здесь: for yr in range (2014,2018): cat_bank_yr = sqlCtx.read.csv(cat_bank_path…

python pyspark pyspark-dataframes

29 авг '19 в 10:29

1 ответ

Как добавить большое количество столбцов (5000~1000 столбцов) в исходный кадр данных за меньшее время?

Я хочу провести какой-то стресс-тест на конвейере pyspark, который я создал, и хочу проверить, увеличатся ли столбцы входного фрейма данных (полученного из Hive) до 2x,5x раз, тогда как будет работать конвейер? Я попытался создать повторяющиеся стол…

pyspark pyspark-sql pyspark-dataframes

26 авг '19 в 09:12

0 ответов

Добавить агрегацию из другого фрейма данных в виде столбца

С этим набором данных: start,end,rms,state,maxTemp,minTemp 2019-02-20T16:16:31.752Z,2019-02-20T17:33:34.750Z,4.588481,charge,35.0,32.0 2019-02-20T17:33:34.935Z,2019-02-20T18:34:49.737Z,5.770562,discharge,35.0,33.0 И это: [{"EventDate":"2019-02-02T16…

python azure pyspark azure-databricks pyspark-dataframes

28 авг '19 в 21:11

1 ответ

PySpark Dataframe: объединение определенных строк

У меня возникли проблемы с выяснением этого Вот простой пример: +---+----+-----+ | Id|Rank|State+ +---+----+-----+ | a| 5| NJ + | a| 7| GA + | b| 8| CA + | b| 1| CA + +---+----+-----+ Я хотел бы отформатировать этот фрейм данных таким образом, чтобы…

dataframe pyspark apache-spark-sql pyspark-dataframes

29 авг '19 в 23:15

1 ответ

Как получить доступ к значениям JSON из фреймов данных PySpark со значениями по умолчанию?

У меня есть искровой фрейм с Json на одном из столбцов. Моя задача - превратить этот фрейм данных в столбчатый тип фрейма данных. Проблема в том, что JSON является динамическим и всегда меняет структуру. То, что я хотел бы сделать, это попытаться по…

python pyspark pyspark-dataframes

25 авг '19 в 23:50

1 ответ

Сгруппировать столбец фрейма данных Pyspark, взяв только уникальные значения из двух столбцов.

Я хочу сгруппировать столбец на основе уникальных значений из двух столбцов pyspark dataframe. Выходные данные кадра данных должны быть такими, чтобы однажды какое-то значение использовалось для groupby, и если оно присутствует в другом столбце, оно…

pyspark pyspark-sql pyspark-dataframes

30 авг '19 в 07:56

1 ответ

Ошибка типа: неподдерживаемые типы операндов для &: 'str' и 'method'

Я конвертирую Hive SQL, используя операции API-интерфейса spark dataframe. Один из вариантов использования требует проверки строкового столбца на пустое и NULL. Я написал ниже код, чтобы удовлетворить требование when(trim(get_sor_tab_df["X"]) == 'D'…

python pyspark pyspark-dataframes

31 авг '19 в 00:28

1 ответ

Pyspark groupby с udf: плохая работа на локальной машине

Я пытаюсь провести анализ огромного набора данных, состоящего из нескольких ежедневных файлов по 15 ГБ каждый. Чтобы быть быстрее, просто для целей тестирования, я создал очень маленький набор данных, который включает в себя все соответствующие сцен…

pyspark pyspark-dataframes

28 авг '19 в 13:42

2 ответа

Очистить значения столбцов в фрейме данных pyspark

Учитывая файл CSV, я преобразовал в Dataframe, используя код, подобный следующему. raw_df = spark.read.csv(input_data, header=True) Это создает dataframe выглядит примерно так: | Name | ======== | 23 | | hi2 | | me3 | | do | Я хочу преобразовать это…

apache-spark pyspark pyspark-dataframes

31 авг '19 в 08:10

1 ответ

Pyspark dataframe - получить количество переменных в двух столбцах

Я использую фрейм данных pyspark с целью получить количество переменных, которые могут быть в нескольких столбцах. Написал SQL-запрос, чтобы получить это, но не смог перевести его для кадров данных. Учитывая приведенный ниже фрейм данных, необходимо…

python pyspark pyspark-dataframes

29 авг '19 в 02:23

1 ответ

Получение схожести Jaccard между двумя столбцами в одном кадре данных

Я хочу вычислить сходство по Джакарду двух столбцов, и я не думаю, что в PySpark есть такая функция. Я не уверен, что это лучший способ вычислить это. Например, скажем, что у нас есть 1 кадр данных, который выглядит следующим образом: | str1 | str2 …

apache-spark pyspark pyspark-sql pyspark-dataframes

01 сен '19 в 04:05

1 ответ

PySpark добавить Id столбец и фильтр не работает

У меня есть набор данных с 233 465 строками, который растет примерно на 10000 строк в день. Мне нужно случайным образом выбрать строки из полного набора данных для использования в обучении ML. Я добавил столбец "id" для "index". from pyspark.sql.fun…

pyspark pyspark-dataframes

23 авг '19 в 21:13

0 ответов

Преобразование преобразований Informatica в Pyspark

Я пытаюсь преобразовать преобразование informatica в преобразование pyspark, но я застрял в замене char в приведенном ниже коде: "DECODE(TRUE, ISNULL(v_check_neg_**) OR v_check_neg_** = '', i_default, NOT IS_NUMBER(v_check_neg_** , i_default, REPLAC…

pyspark pyspark-sql informatica pyspark-dataframes

29 авг '19 в 05:50

1 ответ

PySpark и данные временных рядов: как разумно избежать дублирования дат?

У меня есть следующий образец данных Spark import pandas as pd import pyspark import pyspark.sql.functions as fn from pyspark.sql.window import Window raw_df = pd.DataFrame([ (1115, dt.datetime(2019,8,5,18,20), dt.datetime(2019,8,5,18,40)), (484, dt…

apache-spark pyspark pyspark-sql pyspark-dataframes

31 авг '19 в 13:06

1 ответ

Преобразование Spark DF тоже Pandas DF и другой способ - Производительность

Попытка конвертировать Spark DF с 8-метровыми записями в Pandas DF spark.conf.set("spark.sql.execution.arrow.enabled", "true") sourcePandas = srcDF.select("*").toPandas() Занимает почти 2 минуты И другой способ от Панд до Spark DF finalDF = spark.cr…

pandas azure-databricks pyspark-dataframes

19 май '20 в 04:53

1 ответ

Pyspark сглаживает встроенные структуры на одном уровне

Есть ли простой способ сделать что-то вроде изображения сверху вниз, где все столбцы находятся рядом друг с другом без вложений, на одном уровне? https://i.s tack.imgur.com/3r46K.png

pyspark pyspark-sql flatten pyspark-dataframes

03 янв '20 в 14:58

2 ответа

Когда предложение в pyspark выдает ошибку "имя ', когда' не определено"

С приведенным ниже кодом я получаю сообщение об ошибке, имя "когда" не определено. voter_df = voter_df.withColumn('random_val', when(voter_df.TITLE == 'Councilmember', F.rand()) .when(voter_df.TITLE == 'Mayor', 2) .otherwise(0)) Добавьте в voter_df …

python pyspark-sql pyspark-dataframes

09 мар '20 в 05:20

1 ответ

Как создать фреймы данных из файла Amazon Ion в Spark с помощью python/scala?

Я пытаюсь создать фреймворк из файла формата Amazon ion. Но в искре я не нашел формата для типа иона. Итак, я использовал формат json для загрузки файла ion, но он выдает ошибку. Есть ли способ создать фрейм данных из ионного файла. Я пробовал с код…

dataframe apache-spark apache-spark-sql pyspark-dataframes

27 дек '19 в 08:33