Описание тега pyspark-sql

Use this tag for questions related to the SQL module in PySpark.
1 ответ

Объединить несколько столбцов в один столбец в pyspark, используя python

Входной фрейм данных: id,page,location,trlmonth 1,mobile,chn,08/2018 2,product,mdu,09/2018 3,product,mdu,09/2018 4,mobile,chn,08/2018 5,book,delhi,10/2018 7,music,ban,11/2018 выходной кадр данных: userdetail,count mobile-chn-08/2018,2 product-mdu-09…
14 дек '17 в 07:17
4 ответа

Добавьте в столбец данных новый столбец с пользовательскими значениями. (Pyspark)

Три значения массива A1, получаемые из некоторой функции - A1 = [1,2,3,4] A1 = [5,6,7,8] A1 = [1,3,4,1] Мой фрейм данных, в котором я хочу добавить новый столбец со значениями моего массива - +---+---+-----+ | x1| x2| x3| +---+---+-----+ | 1| A| 3.0…
23 янв '18 в 06:45
2 ответа

Не удается подключиться к MysqlDB через python spark

Я хочу сохранить мой обработанный rdd в таблицу mysql для этого я использую SparkDataFrame, но я получаю следующую ошибку py4j.protocol.Py4JJavaError: An error occurred while calling o216.jdbc. : java.sql.SQLException: No suitable driver found for j…
05 фев '16 в 12:37
1 ответ

Spark генерирует матрицу появления

У меня есть входные транзакции, как показано apples,mangos,eggs milk,oranges,eggs milk, cereals mango,apples Я должен сгенерировать искровый фрейм данных матрицы совместного появления, как это. apple mango milk cereals eggs apple 2 2 0 0 1 mango 2 2…
31 янв '18 в 21:40
2 ответа

sqoop экспорт таблицы орков улья

У меня есть таблица кустов в формате orc, заполненная pyspark dataframe_writer. Мне нужно экспортировать эту таблицу в oracle. У меня проблемы с экспортом таблицы, потому что sqoop не может разобрать формат файла orc. Существуют ли какие-либо особые…
22 фев '17 в 02:32
4 ответа

Преобразовать столбец списка в Dataframe

У меня есть столбец списков в кадре данных искры. +-----------------+ |features | +-----------------+ |[0,45,63,0,0,0,0]| |[0,0,0,85,0,69,0]| |[0,89,56,0,0,0,0]| +-----------------+ Как мне преобразовать это в искровой фрейм данных, где каждый элеме…
2 ответа

spark - вычисление среднего значения в 2 или более столбцах и добавление нового столбца в каждой строке

Предположим, у меня есть набор данных /Dataframe со следующим содержимым: name, marks1, marks2 Alice, 10, 20 Bob, 20, 30 Я хочу добавить новый столбец, который должен иметь среднее значение столбцов B и C. Ожидаемый результат:- name, marks1, marks2,…
1 ответ

Передел, чтобы избежать большого количества маленьких файлов

В настоящее время у меня есть задание ETL, которое читает несколько таблиц, выполняет определенные преобразования и записывает их обратно в ежедневную таблицу. Я использую следующий запрос в spark sql "INSERT INTO dbname.tablename PARTITION (year_mo…
3 ответа

Как использовать подзапрос для опции dbtable в источнике данных jdbc?

Я хочу использовать Spark для обработки некоторых данных из источника JDBC. Но для начала, вместо чтения исходных таблиц из JDBC, я хочу выполнить некоторые запросы на стороне JDBC для фильтрации столбцов и объединения таблиц и загрузки результата з…
5 ответов

Как запускать запросы на обновление на spark-sql

Я новичок в spark. Есть ли у меня в любом случае команда обновления в spark-SQL? Я уже создал таблицу кустов, где я манипулировал некоторыми запросами синтаксиса SQL, такими как вставка, выбор, удаление, но не смог запустить команду обновления. Я ис…
09 авг '16 в 03:22
0 ответов

Невозможно прочитать данные mongodb (json) в pyspark

Я подключаю базу данных mongodb через pymongo и добился ожидаемого результата извлечения ее за пределы базы данных в формате json. но моя задача состоит в том, чтобы мне нужно было создать таблицу кустов через pyspark, я обнаружил, что mongodb предо…
28 сен '18 в 16:10
1 ответ

Как разделить или умножить все нестроковые столбцы фрейма данных PySpark с константой с плавающей точкой?

Мой входной фрейм выглядит следующим образом from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Basics").getOrCreate() df=spark.createDataFrame(data=[('Alice',4.300,None),('Bob',float('nan'),897)],schema=['name','High','Low']…
1 ответ

Pyspark (Dataframes) считывает файл по строке (конвертировать строку в строку)

Мне нужно прочитать строку файла и разделить каждую строку на слова и выполнить операции над словами. Как я могу это сделать? Я написал следующий код: logFile = "/home/hadoop/spark-2.3.1-bin-hadoop2.7/README.md" # Should be some file on your system …
27 авг '18 в 23:01
0 ответов

Получение нулевого значения при выборе второго или дальнейшего столбцов в Spark DataFrame

Поэтому у меня есть, например, следующий файл XML: <root> <first> <a>textA</a> </first> <second> <b>textB</b> </second> <third> <c>textC</c> </third> </root> Я загру…
2 ответа

Как читать табличные данные на s3 в pyspark?

У меня есть некоторые разделенные табуляцией данные на s3 в каталоге s3://mybucket/my/directory/, Теперь я говорю pyspark, что я хочу использовать \t в качестве разделителя для чтения только в одном файле, как это: from pyspark import SparkContext f…
1 ответ

Невозможно создать sparkcontext в sparkversion 2.0.1

Я недавно обновил свою версию свечи с 1.5 до 2.0.1. По python скрипты перестают работать. код в 1.5, который работал sc=SparkContext(appName="YOGI") Код изменен в спарк 2.0.1 sc =SparkContext().master("spark://107.110.74.58:7077").appName("Python Sp…
20 фев '17 в 07:37
0 ответов

Как конвертировать JSON String в объект JSON в pyspark

У меня один из столбцов типа фрейма данных является строка, но на самом деле он содержит объект json 4 схемы, где несколько полей являются общими. Мне нужно преобразовать это в объект Джейсона. Вот схема фрейма данных: query.printSchema () root |-- …
11 апр '18 в 10:26
2 ответа

SparkSQL на pyspark: как генерировать временные ряды?

Я использую SparkSQL на pyspark для хранения некоторых таблиц PostgreSQL в DataFrames, а затем строю запрос, который генерирует несколько временных рядов на основе start а также stop столбцы типа date, Предположим, что my_table содержит: start | sto…
1 ответ

Apache Spark Pivot Query Stuck (PySpark)

У меня есть простые данные как: +--------------------+-----------------+-----+ | timebucket_start| user| hits| +--------------------+-----------------+-----+ |[2017-12-30 01:02...| Messi| 2| |[2017-12-30 01:28...| Jordan| 9| |[2017-12-30 11:12...| J…
1 ответ

Python Spark DataFrame: заменить ноль на SparseVector

В спарк у меня есть следующий фрейм данных под названием "df" с некоторыми пустыми записями: +-------+--------------------+--------------------+ | id| features1| features2| +-------+--------------------+--------------------+ | 185|(5,[0,1,4],[0.1,0.…