Описание тега pyspark

Описание тега Вопросы с тегом

Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.

0 ответов

Как создать отдельные таблицы из значения столбца JSON в postgreSQL

Ниже приведен формат таблицы: CREATE TABLE records ( id text, record json ) Для каждого record столбец строки, значение JSON будет: (это просто снимок всей структуры) { "Trial": { "primary_id": "xxxxx", "key1": "aaaaaaaa (BAL-8557) aaaaaaaaaaaaaaaaa…

15 ноя '18 в 03:58

0 ответов

Схема ограничения атрибутов, выведенная в столбец json в PySpark DataFrame

Я новичок в преобразовании Spark DataFrame и пытаюсь прочитать столбец в формате json. пример: {'af_content_id': [12461515], 'af_currency': 'RB', 'af_order_id': 27671679, 'af_price': [31250], 'af_quantity': [1], } но мне нужно сохранить только один …

python json pyspark

13 дек '18 в 15:52

0 ответов

Автозагрузка изменений в модулях, которые добавляются как зависимость PySpark в программу Driver

Я просто заметил тонкую проблему при использовании addPyFile в PySpark и autoreload в ноутбуках Jupyter. Что происходит, так это то, что у меня есть некоторый код в модулях, которые я использую в пользовательских функциях PySpark, поэтому (насколько…

python pyspark

20 ноя '18 в 10:52

1 ответ

PySpark: несоответствие в преобразовании метки времени в целое число в кадре данных

python dataframe datetime pyspark bigdata

08 сен '17 в 18:48

1 ответ

В PySpark нет метода getVectors, доступного для Word2VecModel

Я пытаюсь получить доступ к getVectors() метод pyspark 1.2.0 версии Spark, но состояния pyspark - input.cache() word2vec = Word2Vec() model = word2vec.fit(input) vector = model.getVectors() AttributeError: 'Word2VecModel' object has no attribute 'ge…

apache-spark pyspark

06 апр '15 в 10:47

1 ответ

pyspark выбирает подмножество файлов с помощью regex/glob из s3

У меня есть несколько файлов, каждый из которых разделен по дате (date=yyyymmdd) на амазоне с3. Файлы возвращаются на 6 месяцев назад, но я бы хотел ограничить использование сценария данными только за последние 3 месяца. Я не уверен, смогу ли я испо…

regex apache-spark amazon-s3 pyspark glob

21 июл '15 в 15:44

0 ответов

Как читать из одной корзины S3 и записывать в другую в pyspark?

Я попытался сделать следующее - установить конкретные конфиги для каждого сегмента - чтобы читать из одного сегмента S3 и записывать в другой. Два сегмента имеют разные учетные данные и принадлежат разным учетным записям. Однако чтение работает толь…

amazon-web-services amazon-s3 pyspark

16 апр '18 в 03:51

1 ответ

Проверка наличия файлов HDFS в Pyspark

Может ли кто-нибудь предложить лучший способ проверить существование файла в pyspark. В настоящее время я использую метод проверки ниже, пожалуйста, сообщите. def path_exist(path): try: rdd=sparkSqlCtx.read.format("orc").load(path) rdd.take(1) retur…

python-3.x pyspark

07 июн '18 в 09:40

0 ответов

pyspark.sql.functions.explode: возвращает ноль, если столбец является пустым массивом

Набор данных выглядит следующим образом: %pyspark df3 = df2.select(df2.event.address.alias("address"), df2.event.artists.alias("artists")) df3.show() +--------------------+--------------------+ | address| artists| +--------------------+-------------…

pyspark spark-dataframe

21 сен '17 в 01:30

1 ответ

Математическая работа с pyspark

У меня есть структура в rdd, которая содержит время записи, как это: 02:00:30. Я хочу преобразовать данные из этого формата во второй формат, я хочу сделать это лечение: 02 * 3600 + 00 * 60 + 30, может кто-нибудь, пожалуйста, помогите мне сделать эт…

pyspark

21 авг '16 в 13:45

0 ответов

org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти сопоставление для test-index

Когда я загружаю данные Elasticsearch в Spark DataFrame с помощью PySpark, я получаю следующую ошибку: py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o48.load.: org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти со…

apache-spark elasticsearch hadoop pyspark

04 сен '18 в 14:28

0 ответов

Как удалить конкретный раздел из hdfs с помощью pyspark?

Причина, по которой я планирую удалить конкретный раздел из цели, состоит в том, что у меня есть DF, который содержит данные для разделов в целевом пути и новых разделов. Если я удаляю эти конкретные разделы из целевого пути, я могу просто написать …

pyspark hdfs partitioning

08 авг '18 в 06:00

0 ответов

Spark Streaming - Продолжительность работы против отправленного

Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka, обрабатывает их и сохраняет результаты в различных таблицах базы данных. На вкладке "Задания" в пользовательском интерфейсе Spark отображается продолжите…

apache-spark pyspark spark-streaming

30 авг '18 в 09:27

1 ответ

Запустить скрипт python с настройками pyspark

У меня есть конфигурация Spark в spark-defaults.conf, XML-файлы: core-site.xml, hive-site.xml, и я экспортировал переменные среды. Когда я запускаю консоль pyspark: $ pyspark --master yarn а потом: >>> sqlContext.sql("show tables").show() в…

python pyspark

07 июл '16 в 07:03

1 ответ

Отображение правил дерева решений, смоделированных в библиотеке pyspark ml

Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …

apache-spark pyspark spark-dataframe apache-spark-mllib apache-spark-ml

02 апр '18 в 15:44

2 ответа

Вычтите последовательные столбцы в кадре данных Pandas или Pyspark

Я хотел бы выполнить следующую операцию в фрейме данных pandas или pyspark, но я все еще не нашел решения. Я хочу вычесть значения из последовательных столбцов в кадре данных. Операцию, которую я описываю, можно увидеть на изображении ниже. Имейте в…

python pandas pyspark multiple-columns subtract

12 июл '16 в 06:26

1 ответ

Аккумуляторы pyspark - понимание их использования

Я хотел бы понять, что такое использование аккумуляторов. Основываясь на онлайн-примерах, кажется, что мы можем использовать их для подсчета конкретных проблем с данными. Например, у меня много номеров лицензий, я могу посчитать, сколько из них неде…

python apache-spark pyspark

14 мар '16 в 15:27

0 ответов

Spark SQL при ошибке прогнозирования LR

Я выполняю следующий запрос блокнота Jupyter к фрейму данных "Preds" как упрощенный DF результата прогноза: Мне удалось сделать простой запрос к "метке", но НЕ к "прогнозу" (даже для того же запроса), но мне не удалось выполнить сложный запрос. Я по…

apache-spark pyspark apache-spark-mllib

04 май '18 в 06:00

0 ответов

pyspark read mongo: ошибки в python/lib/pyspark.zip/pyspark/rdd.py

У меня есть следующий простой код для чтения MongoDB с помощью pyspark from pyspark import SparkContext, SparkConf import pymongo_spark # Important: activate pymongo_spark. pymongo_spark.activate() def main(): conf = SparkConf().setAppName("pyspark …

python mongodb apache-spark pyspark pymongo

27 окт '15 в 23:31

1 ответ

Объединить несколько столбцов в один столбец в pyspark, используя python

Входной фрейм данных: id,page,location,trlmonth 1,mobile,chn,08/2018 2,product,mdu,09/2018 3,product,mdu,09/2018 4,mobile,chn,08/2018 5,book,delhi,10/2018 7,music,ban,11/2018 выходной кадр данных: userdetail,count mobile-chn-08/2018,2 product-mdu-09…

python apache-spark pyspark pyspark-sql

14 дек '17 в 07:17