Описание тега pyspark-sql
Use this tag for questions related to the SQL module in PySpark.
1
ответ
Объединить несколько столбцов в один столбец в pyspark, используя python
Входной фрейм данных: id,page,location,trlmonth 1,mobile,chn,08/2018 2,product,mdu,09/2018 3,product,mdu,09/2018 4,mobile,chn,08/2018 5,book,delhi,10/2018 7,music,ban,11/2018 выходной кадр данных: userdetail,count mobile-chn-08/2018,2 product-mdu-09…
14 дек '17 в 07:17
4
ответа
Добавьте в столбец данных новый столбец с пользовательскими значениями. (Pyspark)
Три значения массива A1, получаемые из некоторой функции - A1 = [1,2,3,4] A1 = [5,6,7,8] A1 = [1,3,4,1] Мой фрейм данных, в котором я хочу добавить новый столбец со значениями моего массива - +---+---+-----+ | x1| x2| x3| +---+---+-----+ | 1| A| 3.0…
23 янв '18 в 06:45
2
ответа
Не удается подключиться к MysqlDB через python spark
Я хочу сохранить мой обработанный rdd в таблицу mysql для этого я использую SparkDataFrame, но я получаю следующую ошибку py4j.protocol.Py4JJavaError: An error occurred while calling o216.jdbc. : java.sql.SQLException: No suitable driver found for j…
05 фев '16 в 12:37
1
ответ
Spark генерирует матрицу появления
У меня есть входные транзакции, как показано apples,mangos,eggs milk,oranges,eggs milk, cereals mango,apples Я должен сгенерировать искровый фрейм данных матрицы совместного появления, как это. apple mango milk cereals eggs apple 2 2 0 0 1 mango 2 2…
31 янв '18 в 21:40
2
ответа
sqoop экспорт таблицы орков улья
У меня есть таблица кустов в формате orc, заполненная pyspark dataframe_writer. Мне нужно экспортировать эту таблицу в oracle. У меня проблемы с экспортом таблицы, потому что sqoop не может разобрать формат файла orc. Существуют ли какие-либо особые…
22 фев '17 в 02:32
4
ответа
Преобразовать столбец списка в Dataframe
У меня есть столбец списков в кадре данных искры. +-----------------+ |features | +-----------------+ |[0,45,63,0,0,0,0]| |[0,0,0,85,0,69,0]| |[0,89,56,0,0,0,0]| +-----------------+ Как мне преобразовать это в искровой фрейм данных, где каждый элеме…
08 дек '17 в 09:49
2
ответа
spark - вычисление среднего значения в 2 или более столбцах и добавление нового столбца в каждой строке
Предположим, у меня есть набор данных /Dataframe со следующим содержимым: name, marks1, marks2 Alice, 10, 20 Bob, 20, 30 Я хочу добавить новый столбец, который должен иметь среднее значение столбцов B и C. Ожидаемый результат:- name, marks1, marks2,…
01 авг '18 в 10:32
1
ответ
Передел, чтобы избежать большого количества маленьких файлов
В настоящее время у меня есть задание ETL, которое читает несколько таблиц, выполняет определенные преобразования и записывает их обратно в ежедневную таблицу. Я использую следующий запрос в spark sql "INSERT INTO dbname.tablename PARTITION (year_mo…
20 окт '18 в 11:41
3
ответа
Как использовать подзапрос для опции dbtable в источнике данных jdbc?
Я хочу использовать Spark для обработки некоторых данных из источника JDBC. Но для начала, вместо чтения исходных таблиц из JDBC, я хочу выполнить некоторые запросы на стороне JDBC для фильтрации столбцов и объединения таблиц и загрузки результата з…
02 апр '17 в 23:59
5
ответов
Как запускать запросы на обновление на spark-sql
Я новичок в spark. Есть ли у меня в любом случае команда обновления в spark-SQL? Я уже создал таблицу кустов, где я манипулировал некоторыми запросами синтаксиса SQL, такими как вставка, выбор, удаление, но не смог запустить команду обновления. Я ис…
09 авг '16 в 03:22
0
ответов
Невозможно прочитать данные mongodb (json) в pyspark
Я подключаю базу данных mongodb через pymongo и добился ожидаемого результата извлечения ее за пределы базы данных в формате json. но моя задача состоит в том, чтобы мне нужно было создать таблицу кустов через pyspark, я обнаружил, что mongodb предо…
28 сен '18 в 16:10
1
ответ
Как разделить или умножить все нестроковые столбцы фрейма данных PySpark с константой с плавающей точкой?
Мой входной фрейм выглядит следующим образом from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Basics").getOrCreate() df=spark.createDataFrame(data=[('Alice',4.300,None),('Bob',float('nan'),897)],schema=['name','High','Low']…
28 июн '17 в 16:18
1
ответ
Pyspark (Dataframes) считывает файл по строке (конвертировать строку в строку)
Мне нужно прочитать строку файла и разделить каждую строку на слова и выполнить операции над словами. Как я могу это сделать? Я написал следующий код: logFile = "/home/hadoop/spark-2.3.1-bin-hadoop2.7/README.md" # Should be some file on your system …
27 авг '18 в 23:01
0
ответов
Получение нулевого значения при выборе второго или дальнейшего столбцов в Spark DataFrame
Поэтому у меня есть, например, следующий файл XML: <root> <first> <a>textA</a> </first> <second> <b>textB</b> </second> <third> <c>textC</c> </third> </root> Я загру…
03 ноя '16 в 11:21
2
ответа
Как читать табличные данные на s3 в pyspark?
У меня есть некоторые разделенные табуляцией данные на s3 в каталоге s3://mybucket/my/directory/, Теперь я говорю pyspark, что я хочу использовать \t в качестве разделителя для чтения только в одном файле, как это: from pyspark import SparkContext f…
17 июл '17 в 06:01
1
ответ
Невозможно создать sparkcontext в sparkversion 2.0.1
Я недавно обновил свою версию свечи с 1.5 до 2.0.1. По python скрипты перестают работать. код в 1.5, который работал sc=SparkContext(appName="YOGI") Код изменен в спарк 2.0.1 sc =SparkContext().master("spark://107.110.74.58:7077").appName("Python Sp…
20 фев '17 в 07:37
0
ответов
Как конвертировать JSON String в объект JSON в pyspark
У меня один из столбцов типа фрейма данных является строка, но на самом деле он содержит объект json 4 схемы, где несколько полей являются общими. Мне нужно преобразовать это в объект Джейсона. Вот схема фрейма данных: query.printSchema () root |-- …
11 апр '18 в 10:26
2
ответа
SparkSQL на pyspark: как генерировать временные ряды?
Я использую SparkSQL на pyspark для хранения некоторых таблиц PostgreSQL в DataFrames, а затем строю запрос, который генерирует несколько временных рядов на основе start а также stop столбцы типа date, Предположим, что my_table содержит: start | sto…
31 мар '17 в 13:14
1
ответ
Apache Spark Pivot Query Stuck (PySpark)
У меня есть простые данные как: +--------------------+-----------------+-----+ | timebucket_start| user| hits| +--------------------+-----------------+-----+ |[2017-12-30 01:02...| Messi| 2| |[2017-12-30 01:28...| Jordan| 9| |[2017-12-30 11:12...| J…
23 май '18 в 12:39
1
ответ
Python Spark DataFrame: заменить ноль на SparseVector
В спарк у меня есть следующий фрейм данных под названием "df" с некоторыми пустыми записями: +-------+--------------------+--------------------+ | id| features1| features2| +-------+--------------------+--------------------+ | 185|(5,[0,1,4],[0.1,0.…
08 янв '17 в 09:08