Описание тега pyspark-sql

Описание тега Вопросы с тегом

Use this tag for questions related to the SQL module in PySpark.

1 ответ

Объединить несколько столбцов в один столбец в pyspark, используя python

Входной фрейм данных: id,page,location,trlmonth 1,mobile,chn,08/2018 2,product,mdu,09/2018 3,product,mdu,09/2018 4,mobile,chn,08/2018 5,book,delhi,10/2018 7,music,ban,11/2018 выходной кадр данных: userdetail,count mobile-chn-08/2018,2 product-mdu-09…

14 дек '17 в 07:17

4 ответа

Добавьте в столбец данных новый столбец с пользовательскими значениями. (Pyspark)

Три значения массива A1, получаемые из некоторой функции - A1 = [1,2,3,4] A1 = [5,6,7,8] A1 = [1,3,4,1] Мой фрейм данных, в котором я хочу добавить новый столбец со значениями моего массива - +---+---+-----+ | x1| x2| x3| +---+---+-----+ | 1| A| 3.0…

python pyspark pyspark-sql

23 янв '18 в 06:45

2 ответа

Не удается подключиться к MysqlDB через python spark

Я хочу сохранить мой обработанный rdd в таблицу mysql для этого я использую SparkDataFrame, но я получаю следующую ошибку py4j.protocol.Py4JJavaError: An error occurred while calling o216.jdbc. : java.sql.SQLException: No suitable driver found for j…

python mysql apache-spark pyspark pyspark-sql

05 фев '16 в 12:37

1 ответ

Spark генерирует матрицу появления

У меня есть входные транзакции, как показано apples,mangos,eggs milk,oranges,eggs milk, cereals mango,apples Я должен сгенерировать искровый фрейм данных матрицы совместного появления, как это. apple mango milk cereals eggs apple 2 2 0 0 1 mango 2 2…

apache-spark spark-dataframe pyspark-sql

31 янв '18 в 21:40

2 ответа

sqoop экспорт таблицы орков улья

У меня есть таблица кустов в формате orc, заполненная pyspark dataframe_writer. Мне нужно экспортировать эту таблицу в oracle. У меня проблемы с экспортом таблицы, потому что sqoop не может разобрать формат файла orc. Существуют ли какие-либо особые…

pyspark sqoop pyspark-sql

22 фев '17 в 02:32

4 ответа

Преобразовать столбец списка в Dataframe

У меня есть столбец списков в кадре данных искры. +-----------------+ |features | +-----------------+ |[0,45,63,0,0,0,0]| |[0,0,0,85,0,69,0]| |[0,89,56,0,0,0,0]| +-----------------+ Как мне преобразовать это в искровой фрейм данных, где каждый элеме…

pyspark apache-spark-sql spark-dataframe pyspark-sql

08 дек '17 в 09:49

2 ответа

spark - вычисление среднего значения в 2 или более столбцах и добавление нового столбца в каждой строке

Предположим, у меня есть набор данных /Dataframe со следующим содержимым: name, marks1, marks2 Alice, 10, 20 Bob, 20, 30 Я хочу добавить новый столбец, который должен иметь среднее значение столбцов B и C. Ожидаемый результат:- name, marks1, marks2,…

apache-spark pyspark apache-spark-sql pyspark-sql

01 авг '18 в 10:32

1 ответ

Передел, чтобы избежать большого количества маленьких файлов

В настоящее время у меня есть задание ETL, которое читает несколько таблиц, выполняет определенные преобразования и записывает их обратно в ежедневную таблицу. Я использую следующий запрос в spark sql "INSERT INTO dbname.tablename PARTITION (year_mo…

apache-spark hadoop apache-spark-sql pyspark-sql

20 окт '18 в 11:41

3 ответа

Как использовать подзапрос для опции dbtable в источнике данных jdbc?

Я хочу использовать Spark для обработки некоторых данных из источника JDBC. Но для начала, вместо чтения исходных таблиц из JDBC, я хочу выполнить некоторые запросы на стороне JDBC для фильтрации столбцов и объединения таблиц и загрузки результата з…

mysql apache-spark jdbc apache-spark-sql pyspark-sql

02 апр '17 в 23:59

5 ответов

Как запускать запросы на обновление на spark-sql

Я новичок в spark. Есть ли у меня в любом случае команда обновления в spark-SQL? Я уже создал таблицу кустов, где я манипулировал некоторыми запросами синтаксиса SQL, такими как вставка, выбор, удаление, но не смог запустить команду обновления. Я ис…

apache-spark pyspark pyspark-sql

09 авг '16 в 03:22

0 ответов

Невозможно прочитать данные mongodb (json) в pyspark

Я подключаю базу данных mongodb через pymongo и добился ожидаемого результата извлечения ее за пределы базы данных в формате json. но моя задача состоит в том, чтобы мне нужно было создать таблицу кустов через pyspark, я обнаружил, что mongodb предо…

python mongodb hive pymongo pyspark-sql

28 сен '18 в 16:10

1 ответ

Как разделить или умножить все нестроковые столбцы фрейма данных PySpark с константой с плавающей точкой?

Мой входной фрейм выглядит следующим образом from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Basics").getOrCreate() df=spark.createDataFrame(data=[('Alice',4.300,None),('Bob',float('nan'),897)],schema=['name','High','Low']…

python apache-spark pyspark spark-dataframe pyspark-sql

28 июн '17 в 16:18

1 ответ

Pyspark (Dataframes) считывает файл по строке (конвертировать строку в строку)

Мне нужно прочитать строку файла и разделить каждую строку на слова и выполнить операции над словами. Как я могу это сделать? Я написал следующий код: logFile = "/home/hadoop/spark-2.3.1-bin-hadoop2.7/README.md" # Should be some file on your system …

apache-spark pyspark pyspark-sql

27 авг '18 в 23:01

0 ответов

Получение нулевого значения при выборе второго или дальнейшего столбцов в Spark DataFrame

Поэтому у меня есть, например, следующий файл XML: <root> <first> <a>textA</a> </first> <second> <b>textB</b> </second> <third> <c>textC</c> </third> </root> Я загру…

python apache-spark databricks spark-dataframe pyspark-sql

03 ноя '16 в 11:21

2 ответа

Как читать табличные данные на s3 в pyspark?

У меня есть некоторые разделенные табуляцией данные на s3 в каталоге s3://mybucket/my/directory/, Теперь я говорю pyspark, что я хочу использовать \t в качестве разделителя для чтения только в одном файле, как это: from pyspark import SparkContext f…

amazon-s3 pyspark amazon-ec2 parquet pyspark-sql

17 июл '17 в 06:01

1 ответ

Невозможно создать sparkcontext в sparkversion 2.0.1

Я недавно обновил свою версию свечи с 1.5 до 2.0.1. По python скрипты перестают работать. код в 1.5, который работал sc=SparkContext(appName="YOGI") Код изменен в спарк 2.0.1 sc =SparkContext().master("spark://107.110.74.58:7077").appName("Python Sp…

python apache-spark pyspark pyspark-sql

20 фев '17 в 07:37

0 ответов

Как конвертировать JSON String в объект JSON в pyspark

У меня один из столбцов типа фрейма данных является строка, но на самом деле он содержит объект json 4 схемы, где несколько полей являются общими. Мне нужно преобразовать это в объект Джейсона. Вот схема фрейма данных: query.printSchema () root |-- …

json pyspark spark-dataframe pyspark-sql

11 апр '18 в 10:26

2 ответа

SparkSQL на pyspark: как генерировать временные ряды?

Я использую SparkSQL на pyspark для хранения некоторых таблиц PostgreSQL в DataFrames, а затем строю запрос, который генерирует несколько временных рядов на основе start а также stop столбцы типа date, Предположим, что my_table содержит: start | sto…

python-2.7 pyspark apache-spark-sql time-series pyspark-sql

31 мар '17 в 13:14

1 ответ

Apache Spark Pivot Query Stuck (PySpark)

У меня есть простые данные как: +--------------------+-----------------+-----+ | timebucket_start| user| hits| +--------------------+-----------------+-----+ |[2017-12-30 01:02...| Messi| 2| |[2017-12-30 01:28...| Jordan| 9| |[2017-12-30 11:12...| J…

apache-spark pyspark apache-spark-sql pyspark-sql

23 май '18 в 12:39

1 ответ

Python Spark DataFrame: заменить ноль на SparseVector

В спарк у меня есть следующий фрейм данных под названием "df" с некоторыми пустыми записями: +-------+--------------------+--------------------+ | id| features1| features2| +-------+--------------------+--------------------+ | 185|(5,[0,1,4],[0.1,0.…

python apache-spark pyspark spark-dataframe pyspark-sql

08 янв '17 в 09:08