Описание тега pyspark-dataframes
1
ответ
Как создать столбец BinaryType, используя несколько столбцов PySpark Dataframe?
Я недавно начал работать с pySpark, поэтому не знаю о многих деталях, касающихся этого. Я пытаюсь создать столбец BinaryType во фрейме данных? Но изо всех сил, чтобы сделать это... например, давайте возьмем простой DF df.show(2) +---+----------+ | c…
24 авг '19 в 10:56
2
ответа
Как присоединиться к двум Spark DataFrame и управлять их колонкой общего доступа?
У меня есть 2 DataFrame, как это: +--+-----------+ |id|some_string| +--+-----------+ | a| foo| | b| bar| | c| egg| | d| fog| +--+-----------+ и это: +--+-----------+ |id|some_string| +--+-----------+ | a| hoi| | b| hei| | c| hai| | e| hui| +--+-----…
26 авг '19 в 10:03
3
ответа
PySpark: TypeError: объект 'str' не вызывается в операциях с кадрами данных
Я читаю файлы из папки в цикле и создаю кадры данных из них. Тем не менее, я получаю эту странную ошибку TypeError: 'str' object is not callable, Пожалуйста, найдите код здесь: for yr in range (2014,2018): cat_bank_yr = sqlCtx.read.csv(cat_bank_path…
29 авг '19 в 10:29
1
ответ
Как добавить большое количество столбцов (5000~1000 столбцов) в исходный кадр данных за меньшее время?
Я хочу провести какой-то стресс-тест на конвейере pyspark, который я создал, и хочу проверить, увеличатся ли столбцы входного фрейма данных (полученного из Hive) до 2x,5x раз, тогда как будет работать конвейер? Я попытался создать повторяющиеся стол…
26 авг '19 в 09:12
0
ответов
Добавить агрегацию из другого фрейма данных в виде столбца
С этим набором данных: start,end,rms,state,maxTemp,minTemp 2019-02-20T16:16:31.752Z,2019-02-20T17:33:34.750Z,4.588481,charge,35.0,32.0 2019-02-20T17:33:34.935Z,2019-02-20T18:34:49.737Z,5.770562,discharge,35.0,33.0 И это: [{"EventDate":"2019-02-02T16…
28 авг '19 в 21:11
1
ответ
PySpark Dataframe: объединение определенных строк
У меня возникли проблемы с выяснением этого Вот простой пример: +---+----+-----+ | Id|Rank|State+ +---+----+-----+ | a| 5| NJ + | a| 7| GA + | b| 8| CA + | b| 1| CA + +---+----+-----+ Я хотел бы отформатировать этот фрейм данных таким образом, чтобы…
29 авг '19 в 23:15
1
ответ
Как получить доступ к значениям JSON из фреймов данных PySpark со значениями по умолчанию?
У меня есть искровой фрейм с Json на одном из столбцов. Моя задача - превратить этот фрейм данных в столбчатый тип фрейма данных. Проблема в том, что JSON является динамическим и всегда меняет структуру. То, что я хотел бы сделать, это попытаться по…
25 авг '19 в 23:50
1
ответ
Сгруппировать столбец фрейма данных Pyspark, взяв только уникальные значения из двух столбцов.
Я хочу сгруппировать столбец на основе уникальных значений из двух столбцов pyspark dataframe. Выходные данные кадра данных должны быть такими, чтобы однажды какое-то значение использовалось для groupby, и если оно присутствует в другом столбце, оно…
30 авг '19 в 07:56
1
ответ
Ошибка типа: неподдерживаемые типы операндов для &: 'str' и 'method'
Я конвертирую Hive SQL, используя операции API-интерфейса spark dataframe. Один из вариантов использования требует проверки строкового столбца на пустое и NULL. Я написал ниже код, чтобы удовлетворить требование when(trim(get_sor_tab_df["X"]) == 'D'…
31 авг '19 в 00:28
1
ответ
Pyspark groupby с udf: плохая работа на локальной машине
Я пытаюсь провести анализ огромного набора данных, состоящего из нескольких ежедневных файлов по 15 ГБ каждый. Чтобы быть быстрее, просто для целей тестирования, я создал очень маленький набор данных, который включает в себя все соответствующие сцен…
28 авг '19 в 13:42
2
ответа
Очистить значения столбцов в фрейме данных pyspark
Учитывая файл CSV, я преобразовал в Dataframe, используя код, подобный следующему. raw_df = spark.read.csv(input_data, header=True) Это создает dataframe выглядит примерно так: | Name | ======== | 23 | | hi2 | | me3 | | do | Я хочу преобразовать это…
31 авг '19 в 08:10
1
ответ
Pyspark dataframe - получить количество переменных в двух столбцах
Я использую фрейм данных pyspark с целью получить количество переменных, которые могут быть в нескольких столбцах. Написал SQL-запрос, чтобы получить это, но не смог перевести его для кадров данных. Учитывая приведенный ниже фрейм данных, необходимо…
29 авг '19 в 02:23
1
ответ
Получение схожести Jaccard между двумя столбцами в одном кадре данных
Я хочу вычислить сходство по Джакарду двух столбцов, и я не думаю, что в PySpark есть такая функция. Я не уверен, что это лучший способ вычислить это. Например, скажем, что у нас есть 1 кадр данных, который выглядит следующим образом: | str1 | str2 …
01 сен '19 в 04:05
1
ответ
PySpark добавить Id столбец и фильтр не работает
У меня есть набор данных с 233 465 строками, который растет примерно на 10000 строк в день. Мне нужно случайным образом выбрать строки из полного набора данных для использования в обучении ML. Я добавил столбец "id" для "index". from pyspark.sql.fun…
23 авг '19 в 21:13
0
ответов
Преобразование преобразований Informatica в Pyspark
Я пытаюсь преобразовать преобразование informatica в преобразование pyspark, но я застрял в замене char в приведенном ниже коде: "DECODE(TRUE, ISNULL(v_check_neg_**) OR v_check_neg_** = '', i_default, NOT IS_NUMBER(v_check_neg_** , i_default, REPLAC…
29 авг '19 в 05:50
1
ответ
PySpark и данные временных рядов: как разумно избежать дублирования дат?
У меня есть следующий образец данных Spark import pandas as pd import pyspark import pyspark.sql.functions as fn from pyspark.sql.window import Window raw_df = pd.DataFrame([ (1115, dt.datetime(2019,8,5,18,20), dt.datetime(2019,8,5,18,40)), (484, dt…
31 авг '19 в 13:06
1
ответ
Преобразование Spark DF тоже Pandas DF и другой способ - Производительность
Попытка конвертировать Spark DF с 8-метровыми записями в Pandas DF spark.conf.set("spark.sql.execution.arrow.enabled", "true") sourcePandas = srcDF.select("*").toPandas() Занимает почти 2 минуты И другой способ от Панд до Spark DF finalDF = spark.cr…
19 май '20 в 04:53
1
ответ
Pyspark сглаживает встроенные структуры на одном уровне
Есть ли простой способ сделать что-то вроде изображения сверху вниз, где все столбцы находятся рядом друг с другом без вложений, на одном уровне? https://i.s tack.imgur.com/3r46K.png
03 янв '20 в 14:58
2
ответа
Когда предложение в pyspark выдает ошибку "имя ', когда' не определено"
С приведенным ниже кодом я получаю сообщение об ошибке, имя "когда" не определено. voter_df = voter_df.withColumn('random_val', when(voter_df.TITLE == 'Councilmember', F.rand()) .when(voter_df.TITLE == 'Mayor', 2) .otherwise(0)) Добавьте в voter_df …
09 мар '20 в 05:20
1
ответ
Как создать фреймы данных из файла Amazon Ion в Spark с помощью python/scala?
Я пытаюсь создать фреймворк из файла формата Amazon ion. Но в искре я не нашел формата для типа иона. Итак, я использовал формат json для загрузки файла ion, но он выдает ошибку. Есть ли способ создать фрейм данных из ионного файла. Я пробовал с код…
27 дек '19 в 08:33