Описание тега spark-dataframe
Структурированные столбчатые данные, аналогичные пандам или фреймам данных R, но с искровой базой RDD, позволяющей выполнять массовые распределенные операции, подобные SQL.
1
ответ
Spark 2 Наборы данных опций
У меня есть набор данных строк, который я анализирую в набор данных класса case с помощью функции, которая может дать сбой (например, если данные, которые я пытаюсь проанализировать, не могут быть использованы). По этой причине эта функция возвращае…
09 ноя '16 в 15:11
0
ответов
pyspark.sql.functions.explode: возвращает ноль, если столбец является пустым массивом
Набор данных выглядит следующим образом: %pyspark df3 = df2.select(df2.event.address.alias("address"), df2.event.artists.alias("artists")) df3.show() +--------------------+--------------------+ | address| artists| +--------------------+-------------…
21 сен '17 в 01:30
1
ответ
Устаревший Jar в Classpath Databricks
Я пытаюсь запустить некоторый код в Databricks с прикрепленным Jar-файлом. Ошибка, которую я получаю, связана с устаревшим Jar в пути к классам. Я загрузил последнюю версию Jar, но, видимо, устаревшая версия все еще где-то в пути к классам. Есть ли …
18 сен '17 в 20:10
2
ответа
Преобразование шаблона даты в искровом фрейме
У меня есть столбец в искровом фрейме данных типа String (с датой в шаблоне yyyy-MM-dd). Я хочу отобразить значение столбца в шаблоне MM / dd / yyyy Мои данные val df = sc.parallelize(Array( ("steak", "1990-01-01", "2000-01-01", 150), ("steak", "200…
11 апр '17 в 14:00
1
ответ
Отображение правил дерева решений, смоделированных в библиотеке pyspark ml
Я новичок в искре. Я смоделировал дерево решений, используя API на основе Dataframe, т.е. pyspark.ml. Я хочу отобразить правила дерева решений, аналогичные тем, которые мы получаем в API на основе RDD (spark.mllib) в spark, используя toDebugString. …
02 апр '18 в 15:44
2
ответа
Как объединить (объединить) информацию в массиве [DataFrame]
У меня есть массив [DataFrame], и я хочу проверить, есть ли какие-либо изменения в значениях по столбцам для каждой строки каждого фрейма данных. Скажем, у меня есть первая строка из трех фреймов данных, например: (0,1.0,0.4,0.1) (0,3.0,0.2,0.1) (…
28 дек '15 в 22:05
1
ответ
Когда использовать Spark DataFrame/Dataset API, а когда использовать простой RDD?
Механизм исполнения Spark SQL DataFrame/Dataset имеет несколько чрезвычайно эффективных способов оптимизации времени и пространства (например, InternalRow и выражение codeGen). Согласно многим документациям, для большинства распределенных алгоритмов…
30 май '16 в 20:08
2
ответа
Получение исключения при использовании предложения Dataframe where
Я пытаюсь выполнить пример операции на Datarame, где пункт. Вот мои примерные данные таблицы: address district hyderabad 001 delhi 002 mumbai 003 Теперь мне нужно оценить адрес, макс (район) с помощью DataFrame. Результат будет таким: Мумбаи 003 Обх…
09 дек '16 в 05:39
0
ответов
Искра: Ключ не найден
Я пытаюсь вставить в таблицу улья из искры, используя следующий синтаксис. tranl1.write.mode("overwrite").partitionBy("t_date").insertInto("tran_spark_part") Замечания: tranl1 это DF, я создал его для загрузки данных из оракула. val tranl1 = sqlCont…
21 мар '17 в 05:07
1
ответ
Невозможно вызвать любую функцию на фрейме данных spark
Я создал искровой фрейм данных в результате объединения некоторых других фреймов данных. Теперь вызывать любой метод в кадре данных не удается. Это не дает конкретных ошибок. Только ошибки, такие как ExecutorLostFailure, Slave потерян, контейнер осв…
30 окт '17 в 16:39
2
ответа
Фильтрация фрейма данных pyspark, если текстовый столбец содержит слова в указанном списке
Я видел опубликованные здесь вопросы, похожие на мои, но я все еще получаю ошибки в своем коде, когда пытаюсь ответить на некоторые из них. У меня есть датафрейм с тремя столбцами - создан _at, текст и слова (это просто токенизированная версия текст…
25 апр '17 в 15:59
1
ответ
PySpark, запрашивающий несколько файлов JSON
Я загрузил в Spark 2.2.0 множество файлов JSONL (структура одинакова для всех из них), содержащихся в каталоге с помощью команды (python spark): df = spark.read.json(mydirectory) df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(…
15 сен '17 в 21:09
1
ответ
Скорость работы Spark в зависимости от размера сервера SQL
Моя настройка: У меня есть сервер MS SQL под управлением Azure (V12) У меня есть кластер Spark, работающий в Azure HDInsights Spark.Version: 1.6.2 Scala.Version: 2.10.5 Я извлекаю свои данные (около 5 миллионов строк) с сервера SQL через драйвер jdb…
14 окт '16 в 19:36
1
ответ
Создание SparseVector из значений в DataFrame
Я пытался извлечь информацию из 1-колоночного Spark Dataframe, состоящего из Double, и поместить его в Breeze SparseVector. Для этого я просматриваю каждый элемент моего 1-столбцового DataFrame, заставляю его быть двойным, затем добавляю его в Vecto…
28 июн '16 в 18:38
2
ответа
Преобразование типа данных столбца с использованием фрейма данных Spark.
У меня есть RDD, чей тип все строки, потому что он был прочитан из текстового файла, и есть около 20 полей. Например, val rdd = sc.parallelize(Seq( ("1", "2.0", "three"), ("1", "2.0", "three"))) Я хочу использовать динамически сгенерированный Struct…
12 мар '16 в 23:32
0
ответов
Как мы делим стратифицированное разделение поезда-теста на кадрах данных Spark?
Я хочу разделить фрейм данных Spark, который имеет дисбаланс классов, поэтому я хочу разделить на обучающие и тестировать фреймы данных с правильными соотношениями классов. Как это сделать на фреймах данных Spark (без использования rdd).
07 мар '18 в 13:08
3
ответа
Pyspark Dataframe с помощью фильтрации
У меня есть фрейм данных, как показано ниже cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 Я должен посмотреть на клиентов, посмотреть, сколько у них требований и посмотреть, выполнили л…
16 мар '17 в 06:10
1
ответ
Как получить общее количество записей за текущий час из таблицы поиска
У меня есть DataFrame с данными таблицы поиска, для каждого часа в этой таблице будет запись. Как рассчитать общее количество записей до текущего часа? Например, мои данные DF +----+-----+ |hour|count| +----+-----+ |0.00| 10| |1.00| 5| |2.00| 10| |3…
21 ноя '16 в 06:19
2
ответа
Извлечение столбца СДР в новый СДР
У меня есть rdd с несколькими столбцами и я хочу извлечь столбец с именем age. Я старался: rddAge = df.rdd.map(lambda row: Row(age=row.age)) Код не возвращает ошибок. Но когда я просто пытаюсь сделать rddAge.count(), я получаю очень длинную трассиро…
10 фев '17 в 02:54
1
ответ
Создание схемы Pyspark с использованием ArrayType
Я пытаюсь создать схему для моего нового DataFrame и пробовал различные комбинации скобок и ключевых слов, но не смог понять, как заставить это работать. Моя текущая попытка: from pyspark.sql.types import * schema = StructType([ StructField("User", …
23 янв '18 в 05:19