Описание тега apache-spark-2.2

1 ответ

Создать вертикальную таблицу в Spark 2

Как создать вертикальную таблицу в Spark 2 SQL. Я строю ETL с использованием Spark 2 / SQL / Scala. У меня есть данные в обычной структуре таблицы, как. Таблица ввода: | ID | A | B | C | D | | 1 | A1 | B1 | C1 | D1 | | 2 | A2 | B2 | C2 | D2 | Выходн…
2 ответа

Spark Bucketing производительность чтения

Версия Spark - 2.2.1. Я создал таблицу с 64 сегментами, я выполняю функцию агрегирования select t1.ifa,count(*) from $tblName t1 where t1.date_ = '2018-01-01' group by ifa, Я вижу, что 64 задачи в пользовательском интерфейсе Spark, которые использую…
1 ответ

Динамическое Распределение с искровым потоком на пряже, не уменьшая исполнителей

Я использую потоковую передачу spark (spark версии 2.2) на кластере пряжи и пытаюсь включить динамическое распределение ядра для своего приложения. Количество исполнителей увеличивается по мере необходимости, но как только назначены исполнители, они…
0 ответов

Как запретить Apache Spark читать JDBC DataFrame несколько раз?

Я должен читать данные из базы данных Oracle, используя JDBC с Spark (2.2). Чтобы свести к минимуму передаваемые данные, я использую push-запрос, который уже фильтрует данные для загрузки. Эти данные затем добавляются в существующую таблицу Hive. Чт…
0 ответов

Spark ML StandardScaler и Sklearn StandardScaler (with_std=True и with_mean=False)

Я пытаюсь переписать функцию с sklearn на spark ml, которая включает StandardScaler. Я пытаюсь установить его на единицу дисперсии, установив with_std=True и with_mean=False. Однако результаты Sklearn и Spark ML не совпадают. Дисперсия равна одной с…
1 ответ

Spark 2.x - Как создать простой план объяснения / выполнения

Я надеюсь сгенерировать план объяснения / выполнения в Spark 2.2 с некоторыми действиями над фреймом данных. Цель здесь состоит в том, чтобы гарантировать, что сокращение раздела происходит, как ожидалось, прежде чем я запускаю работу и использую ре…
29 май '18 в 02:22
1 ответ

Spark2 Kafka Структурированная потоковая передача Java не знает функцию from_json

У меня вопрос по поводу структурированной потоковой передачи Spark на Kafka. У меня есть схема типа: StructType schema = new StructType() .add("field1", StringType) .add("field2", StringType) .add("field3", StringType) .add("field4", StringType) .ad…
3 ответа

Как отсортировать каждую строку rdd в искре, используя scala?

Мой текстовый файл имеет следующие данные: 10,14,16,19,52 08,09,12,20,45 55,56,70,78,53 Я хочу отсортировать каждую строку в порядке убывания. Я попробовал приведенный ниже код val file = sc.textFile("Maximum values").map(x=>x.split(",")) val sor…
1 ответ

Интерполяция строки Scala с подчеркиванием

Я новичок в Scala, поэтому не стесняйтесь указывать мне направление документации, но я не смог найти ответ на этот вопрос в своем исследовании. Я использую Scala 2.11.8 с Spark2.2 и пытаюсь создать динамическую строку, содержащую dateString1_dateStr…
2 ответа

Spark 2.2 извлечение даты не работает из unix_timestamp

В Spark 2.2 извлечение даты не работает из входных данных unix_timestamp: +-------------------------+ |UPDATE_TS | +-------------------------+ |26NOV2009:03:27:01.154410| |24DEC2012:00:47:46.805710| |02MAY2013:00:45:33.233844| |21NOV2014:00:33:39.35…
29 июн '18 в 12:58
0 ответов

Отслеживание прогресса приложения Apache Spark / Yarn при детализации задач

Я использую Apache Spark 2 и Yarn для запуска приложения, которое использует SparkContext для запуска нескольких задач. Я ищу способ отслеживать завершения и неудачи на уровне отдельных задач во время работы приложения. В идеале я хотел бы сделать э…
0 ответов

Сохранение искрового фрейма данных в фиксированном формате с различной шириной столбца

У меня есть PySpark dataframe (df), который выглядит так: Входные данные: +----+------------+-----------+ | id | first_name | last_name | +----+------------+-----------+ | 1 | Zed | Seiler | | 2 | Piotr | Ricardon | | 3 | Ardeen | Crotch | | 4 | Dre…
1 ответ

Почему при агрегации collect_set добавляется оператор Exchange, чтобы присоединиться к запросу таблиц с концами?

Я использую Spark-2.2. Я покажу Спарк ведро. Я создал таблицу с нарезкой, вот desc formatted my_bucketed_tbl выход: +--------------------+--------------------+-------+ | col_name| data_type|comment| +--------------------+--------------------+-------…
1 ответ

Форматы временных меток и часовые пояса в Spark (scala API)

******* ОБНОВИТЬ ******** Как предложено в комментариях, я исключил не относящуюся к делу часть кода: Мои требования: Унифицировать количество миллисекунд до 3 Преобразовать строку в метку времени и сохранить значение в UTC Создать фрейм данных: val…
01 сен '18 в 06:27
0 ответов

Я сталкиваюсь с проблемой с выводом писателя CSV pyspark2.2

Я хочу перенести код pyspark с 1.6 на 2.x. В 1.6 я использовал синтаксис input_df.repartition(number_of_files) \ .write.mode(file_saveMode) \ .format(file_format) \ .option("header", "true") \ .save(nfs_path) И получал вывод в формате ниже. часть-00…
02 июн '18 в 14:58
1 ответ

Как получить строку, соответствующую минимальному значению некоторого столбца в фрейме данных Scala Spark

У меня есть следующий код. df3 создается с использованием следующего кода. Я хочу получить минимальное значение distance_n, а также всю строку, содержащую это минимальное значение. //it give just the min value , but i want entire row containing that…
1 ответ

Взрыв Кассандры UDT с плоской картой в Spark 2.x (Scala)

У меня есть данные в Кассандре (3.11.2), которые также являются моей df: Данные в Кассандре: id | some_data -- | --------- 1 | [{s1:"str11", s2:"str12"},{s1:"str13", s2:"str14"}] 2 | [{s1:"str21", s2:"str22"},{s1:"str23", s2:"str24"}] 3 | [{s1:"str3…
0 ответов

Как загрузить конкретные строки и столбца из таблицы Excel через pyspark в таблицу HIVE?

У меня есть файл Excel, имеющий 4 листа. На каждом рабочем листе первые 3 строки являются пустыми, то есть данные начинаются со строки 4 и продолжаются в течение тысяч строк. Примечание: согласно требованию я не должен удалять пустые строки. Мои цел…
11 сен '18 в 08:29
1 ответ

Читать текстовый файл в pyspark2

Я пытаюсь прочитать текстовый файл в версии 2.3 с помощью Python, но я получаю эту ошибку. Это формат textFile находится в: name marks amar 100 babul 70 ram 98 krish 45 Код: df=spark.read.option("header","true")\ .option("delimiter"," ")\ .option("i…
17 сен '18 в 20:50
0 ответов

Искра - Операция не разрешена: изменить таблицу заменить столбцы

Выглядит как улей replace columns не работает с искрой 2.2.1, а также с 2.3.1 alterSchemaSql : alter table myschema.mytable replace columns (a int,b int,d int) Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException: Operation…