Описание тега spark-dataframe

Описание тега Вопросы с тегом

Структурированные столбчатые данные, аналогичные пандам или фреймам данных R, но с искровой базой RDD, позволяющей выполнять массовые распределенные операции, подобные SQL.

1 ответ

Spark 2 Наборы данных опций

У меня есть набор данных строк, который я анализирую в набор данных класса case с помощью функции, которая может дать сбой (например, если данные, которые я пытаюсь проанализировать, не могут быть использованы). По этой причине эта функция возвращае…

09 ноя '16 в 15:11

0 ответов

pyspark.sql.functions.explode: возвращает ноль, если столбец является пустым массивом

Набор данных выглядит следующим образом: %pyspark df3 = df2.select(df2.event.address.alias("address"), df2.event.artists.alias("artists")) df3.show() +--------------------+--------------------+ | address| artists| +--------------------+-------------…

pyspark spark-dataframe

21 сен '17 в 01:30

1 ответ

Устаревший Jar в Classpath Databricks

Я пытаюсь запустить некоторый код в Databricks с прикрепленным Jar-файлом. Ошибка, которую я получаю, связана с устаревшим Jar в пути к классам. Я загрузил последнюю версию Jar, но, видимо, устаревшая версия все еще где-то в пути к классам. Есть ли …

apache-spark databricks classpath spark-dataframe

18 сен '17 в 20:10

2 ответа

Преобразование шаблона даты в искровом фрейме

У меня есть столбец в искровом фрейме данных типа String (с датой в шаблоне yyyy-MM-dd). Я хочу отобразить значение столбца в шаблоне MM / dd / yyyy Мои данные val df = sc.parallelize(Array( ("steak", "1990-01-01", "2000-01-01", 150), ("steak", "200…

scala apache-spark spark-dataframe

11 апр '17 в 14:00

1 ответ

Отображение правил дерева решений, смоделированных в библиотеке pyspark ml

Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …

apache-spark pyspark spark-dataframe apache-spark-mllib apache-spark-ml

02 апр '18 в 15:44

2 ответа

Как объединить (объединить) информацию в массиве [DataFrame]

У меня есть массив [DataFrame], и я хочу проверить, есть ли какие-либо изменения в значениях по столбцам для каждой строки каждого фрейма данных. Скажем, у меня есть первая строка из трех фреймов данных, например: (0,1.0,0.4,0.1) (0,3.0,0.2,0.1) (…

scala apache-spark spark-dataframe

28 дек '15 в 22:05

1 ответ

Когда использовать Spark DataFrame/Dataset API, а когда использовать простой RDD?

Механизм исполнения Spark SQL DataFrame/Dataset имеет несколько чрезвычайно эффективных способов оптимизации времени и пространства (например, InternalRow и выражение codeGen). Согласно многим документациям, для большинства распределенных алгоритмов…

apache-spark apache-spark-sql spark-dataframe apache-spark-dataset

30 май '16 в 20:08

2 ответа

Получение исключения при использовании предложения Dataframe where

Я пытаюсь выполнить пример операции на Datarame, где пункт. Вот мои примерные данные таблицы: address district hyderabad 001 delhi 002 mumbai 003 Теперь мне нужно оценить адрес, макс (район) с помощью DataFrame. Результат будет таким: Мумбаи 003 Обх…

sql dataframe apache-spark max spark-dataframe

09 дек '16 в 05:39

0 ответов

Искра: Ключ не найден

Я пытаюсь вставить в таблицу улья из искры, используя следующий синтаксис. tranl1.write.mode("overwrite").partitionBy("t_date").insertInto("tran_spark_part") Замечания: tranl1 это DF, я создал его для загрузки данных из оракула. val tranl1 = sqlCont…

spark-dataframe partition

21 мар '17 в 05:07

1 ответ

Невозможно вызвать любую функцию на фрейме данных spark

Я создал искровой фрейм данных в результате объединения некоторых других фреймов данных. Теперь вызывать любой метод в кадре данных не удается. Это не дает конкретных ошибок. Только ошибки, такие как ExecutorLostFailure, Slave потерян, контейнер осв…

scala apache-spark spark-dataframe

30 окт '17 в 16:39

2 ответа

Фильтрация фрейма данных pyspark, если текстовый столбец содержит слова в указанном списке

Я видел опубликованные здесь вопросы, похожие на мои, но я все еще получаю ошибки в своем коде, когда пытаюсь ответить на некоторые из них. У меня есть датафрейм с тремя столбцами - создан _at, текст и слова (это просто токенизированная версия текст…

python pyspark spark-dataframe

25 апр '17 в 15:59

1 ответ

PySpark, запрашивающий несколько файлов JSON

Я загрузил в Spark 2.2.0 множество файлов JSONL (структура одинакова для всех из них), содержащихся в каталоге с помощью команды (python spark): df = spark.read.json(mydirectory) df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(…

json apache-spark pyspark spark-dataframe

15 сен '17 в 21:09

1 ответ

Скорость работы Spark в зависимости от размера сервера SQL

Моя настройка: У меня есть сервер MS SQL под управлением Azure (V12) У меня есть кластер Spark, работающий в Azure HDInsights Spark.Version: 1.6.2 Scala.Version: 2.10.5 Я извлекаю свои данные (около 5 миллионов строк) с сервера SQL через драйвер jdb…

apache-spark apache-spark-sql spark-dataframe hdinsight

14 окт '16 в 19:36

1 ответ

Создание SparseVector из значений в DataFrame

Я пытался извлечь информацию из 1-колоночного Spark Dataframe, состоящего из Double, и поместить его в Breeze SparseVector. Для этого я просматриваю каждый элемент моего 1-столбцового DataFrame, заставляю его быть двойным, затем добавляю его в Vecto…

scala apache-spark spark-dataframe scala-breeze

28 июн '16 в 18:38

2 ответа

Преобразование типа данных столбца с использованием фрейма данных Spark.

У меня есть RDD, чей тип все строки, потому что он был прочитан из текстового файла, и есть около 20 полей. Например, val rdd = sc.parallelize(Seq( ("1", "2.0", "three"), ("1", "2.0", "three"))) Я хочу использовать динамически сгенерированный Struct…

scala apache-spark spark-dataframe

12 мар '16 в 23:32

0 ответов

Как мы делим стратифицированное разделение поезда-теста на кадрах данных Spark?

Я хочу разделить фрейм данных Spark, который имеет дисбаланс классов, поэтому я хочу разделить на обучающие и тестировать фреймы данных с правильными соотношениями классов. Как это сделать на фреймах данных Spark (без использования rdd).

scala spark-dataframe

07 мар '18 в 13:08

3 ответа

Pyspark Dataframe с помощью фильтрации

У меня есть фрейм данных, как показано ниже cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 Я должен посмотреть на клиентов, посмотреть, сколько у них требований и посмотреть, выполнили л…

python apache-spark pyspark spark-dataframe

16 мар '17 в 06:10

1 ответ

Как получить общее количество записей за текущий час из таблицы поиска

У меня есть DataFrame с данными таблицы поиска, для каждого часа в этой таблице будет запись. Как рассчитать общее количество записей до текущего часа? Например, мои данные DF +----+-----+ |hour|count| +----+-----+ |0.00| 10| |1.00| 5| |2.00| 10| |3…

scala apache-spark-sql spark-dataframe

21 ноя '16 в 06:19

2 ответа

Извлечение столбца СДР в новый СДР

У меня есть rdd с несколькими столбцами и я хочу извлечь столбец с именем age. Я старался: rddAge = df.rdd.map(lambda row: Row(age=row.age)) Код не возвращает ошибок. Но когда я просто пытаюсь сделать rddAge.count(), я получаю очень длинную трассиро…

python apache-spark rdd spark-dataframe

10 фев '17 в 02:54

1 ответ

Создание схемы Pyspark с использованием ArrayType

Я пытаюсь создать схему для моего нового DataFrame и пробовал различные комбинации скобок и ключевых слов, но не смог понять, как заставить это работать. Моя текущая попытка: from pyspark.sql.types import * schema = StructType([ StructField("User", …

pyspark schema rdd spark-dataframe

23 янв '18 в 05:19