Описание тега pyspark
Spark Python API (PySpark) предоставляет Python модель программирования apache-spark.
0
ответов
Как создать отдельные таблицы из значения столбца JSON в postgreSQL
Ниже приведен формат таблицы: CREATE TABLE records ( id text, record json ) Для каждого record столбец строки, значение JSON будет: (это просто снимок всей структуры) { "Trial": { "primary_id": "xxxxx", "key1": "aaaaaaaa (BAL-8557) aaaaaaaaaaaaaaaaa…
15 ноя '18 в 03:58
0
ответов
Схема ограничения атрибутов, выведенная в столбец json в PySpark DataFrame
Я новичок в преобразовании Spark DataFrame и пытаюсь прочитать столбец в формате json. пример: {'af_content_id': [12461515], 'af_currency': 'RB', 'af_order_id': 27671679, 'af_price': [31250], 'af_quantity': [1], } но мне нужно сохранить только один …
13 дек '18 в 15:52
0
ответов
Автозагрузка изменений в модулях, которые добавляются как зависимость PySpark в программу Driver
Я просто заметил тонкую проблему при использовании addPyFile в PySpark и autoreload в ноутбуках Jupyter. Что происходит, так это то, что у меня есть некоторый код в модулях, которые я использую в пользовательских функциях PySpark, поэтому (насколько…
20 ноя '18 в 10:52
1
ответ
PySpark: несоответствие в преобразовании метки времени в целое число в кадре данных
У меня есть датафрейм с грубой структурой, подобной следующей: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | 2017-05-31 15:30:48…
08 сен '17 в 18:48
1
ответ
В PySpark нет метода getVectors, доступного для Word2VecModel
Я пытаюсь получить доступ к getVectors() метод pyspark 1.2.0 версии Spark, но состояния pyspark - input.cache() word2vec = Word2Vec() model = word2vec.fit(input) vector = model.getVectors() AttributeError: 'Word2VecModel' object has no attribute 'ge…
06 апр '15 в 10:47
1
ответ
pyspark выбирает подмножество файлов с помощью regex/glob из s3
У меня есть несколько файлов, каждый из которых разделен по дате (date=yyyymmdd) на амазоне с3. Файлы возвращаются на 6 месяцев назад, но я бы хотел ограничить использование сценария данными только за последние 3 месяца. Я не уверен, смогу ли я испо…
21 июл '15 в 15:44
0
ответов
Как читать из одной корзины S3 и записывать в другую в pyspark?
Я попытался сделать следующее - установить конкретные конфиги для каждого сегмента - чтобы читать из одного сегмента S3 и записывать в другой. Два сегмента имеют разные учетные данные и принадлежат разным учетным записям. Однако чтение работает толь…
16 апр '18 в 03:51
1
ответ
Проверка наличия файлов HDFS в Pyspark
Может ли кто-нибудь предложить лучший способ проверить существование файла в pyspark. В настоящее время я использую метод проверки ниже, пожалуйста, сообщите. def path_exist(path): try: rdd=sparkSqlCtx.read.format("orc").load(path) rdd.take(1) retur…
07 июн '18 в 09:40
0
ответов
pyspark.sql.functions.explode: возвращает ноль, если столбец является пустым массивом
Набор данных выглядит следующим образом: %pyspark df3 = df2.select(df2.event.address.alias("address"), df2.event.artists.alias("artists")) df3.show() +--------------------+--------------------+ | address| artists| +--------------------+-------------…
21 сен '17 в 01:30
1
ответ
Математическая работа с pyspark
У меня есть структура в rdd, которая содержит время записи, как это: 02:00:30. Я хочу преобразовать данные из этого формата во второй формат, я хочу сделать это лечение: 02 * 3600 + 00 * 60 + 30, может кто-нибудь, пожалуйста, помогите мне сделать эт…
21 авг '16 в 13:45
0
ответов
org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти сопоставление для test-index
Когда я загружаю данные Elasticsearch в Spark DataFrame с помощью PySpark, я получаю следующую ошибку: py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o48.load.: org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти со…
04 сен '18 в 14:28
0
ответов
Как удалить конкретный раздел из hdfs с помощью pyspark?
Причина, по которой я планирую удалить конкретный раздел из цели, состоит в том, что у меня есть DF, который содержит данные для разделов в целевом пути и новых разделов. Если я удаляю эти конкретные разделы из целевого пути, я могу просто написать …
08 авг '18 в 06:00
0
ответов
Spark Streaming - Продолжительность работы против отправленного
Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka, обрабатывает их и сохраняет результаты в различных таблицах базы данных. На вкладке "Задания" в пользовательском интерфейсе Spark отображается продолжите…
30 авг '18 в 09:27
1
ответ
Запустить скрипт python с настройками pyspark
У меня есть конфигурация Spark в spark-defaults.conf, XML-файлы: core-site.xml, hive-site.xml, и я экспортировал переменные среды. Когда я запускаю консоль pyspark: $ pyspark --master yarn а потом: >>> sqlContext.sql("show tables").show() в…
07 июл '16 в 07:03
1
ответ
Отображение правил дерева решений, смоделированных в библиотеке pyspark ml
Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …
02 апр '18 в 15:44
2
ответа
Вычтите последовательные столбцы в кадре данных Pandas или Pyspark
Я хотел бы выполнить следующую операцию в фрейме данных pandas или pyspark, но я все еще не нашел решения. Я хочу вычесть значения из последовательных столбцов в кадре данных. Операцию, которую я описываю, можно увидеть на изображении ниже. Имейте в…
12 июл '16 в 06:26
1
ответ
Аккумуляторы pyspark - понимание их использования
Я хотел бы понять, что такое использование аккумуляторов. Основываясь на онлайн-примерах, кажется, что мы можем использовать их для подсчета конкретных проблем с данными. Например, у меня много номеров лицензий, я могу посчитать, сколько из них неде…
14 мар '16 в 15:27
0
ответов
Spark SQL при ошибке прогнозирования LR
Я выполняю следующий запрос блокнота Jupyter к фрейму данных "Preds" как упрощенный DF результата прогноза: Мне удалось сделать простой запрос к "метке", но НЕ к "прогнозу" (даже для того же запроса), но мне не удалось выполнить сложный запрос. Я по…
04 май '18 в 06:00
0
ответов
pyspark read mongo: ошибки в python/lib/pyspark.zip/pyspark/rdd.py
У меня есть следующий простой код для чтения MongoDB с помощью pyspark from pyspark import SparkContext, SparkConf import pymongo_spark # Important: activate pymongo_spark. pymongo_spark.activate() def main(): conf = SparkConf().setAppName("pyspark …
27 окт '15 в 23:31
1
ответ
Объединить несколько столбцов в один столбец в pyspark, используя python
Входной фрейм данных: id,page,location,trlmonth 1,mobile,chn,08/2018 2,product,mdu,09/2018 3,product,mdu,09/2018 4,mobile,chn,08/2018 5,book,delhi,10/2018 7,music,ban,11/2018 выходной кадр данных: userdetail,count mobile-chn-08/2018,2 product-mdu-09…
14 дек '17 в 07:17