Описание тега apache-spark-2.2
1
ответ
Создать вертикальную таблицу в Spark 2
Как создать вертикальную таблицу в Spark 2 SQL. Я строю ETL с использованием Spark 2 / SQL / Scala. У меня есть данные в обычной структуре таблицы, как. Таблица ввода: | ID | A | B | C | D | | 1 | A1 | B1 | C1 | D1 | | 2 | A2 | B2 | C2 | D2 | Выходн…
19 май '18 в 16:57
2
ответа
Spark Bucketing производительность чтения
Версия Spark - 2.2.1. Я создал таблицу с 64 сегментами, я выполняю функцию агрегирования select t1.ifa,count(*) from $tblName t1 where t1.date_ = '2018-01-01' group by ifa, Я вижу, что 64 задачи в пользовательском интерфейсе Spark, которые использую…
18 янв '18 в 19:11
1
ответ
Динамическое Распределение с искровым потоком на пряже, не уменьшая исполнителей
Я использую потоковую передачу spark (spark версии 2.2) на кластере пряжи и пытаюсь включить динамическое распределение ядра для своего приложения. Количество исполнителей увеличивается по мере необходимости, но как только назначены исполнители, они…
25 дек '18 в 08:06
0
ответов
Как запретить Apache Spark читать JDBC DataFrame несколько раз?
Я должен читать данные из базы данных Oracle, используя JDBC с Spark (2.2). Чтобы свести к минимуму передаваемые данные, я использую push-запрос, который уже фильтрует данные для загрузки. Эти данные затем добавляются в существующую таблицу Hive. Чт…
02 июл '18 в 18:43
0
ответов
Spark ML StandardScaler и Sklearn StandardScaler (with_std=True и with_mean=False)
Я пытаюсь переписать функцию с sklearn на spark ml, которая включает StandardScaler. Я пытаюсь установить его на единицу дисперсии, установив with_std=True и with_mean=False. Однако результаты Sklearn и Spark ML не совпадают. Дисперсия равна одной с…
17 сен '18 в 20:40
1
ответ
Spark 2.x - Как создать простой план объяснения / выполнения
Я надеюсь сгенерировать план объяснения / выполнения в Spark 2.2 с некоторыми действиями над фреймом данных. Цель здесь состоит в том, чтобы гарантировать, что сокращение раздела происходит, как ожидалось, прежде чем я запускаю работу и использую ре…
29 май '18 в 02:22
1
ответ
Spark2 Kafka Структурированная потоковая передача Java не знает функцию from_json
У меня вопрос по поводу структурированной потоковой передачи Spark на Kafka. У меня есть схема типа: StructType schema = new StructType() .add("field1", StringType) .add("field2", StringType) .add("field3", StringType) .add("field4", StringType) .ad…
24 сен '18 в 05:47
3
ответа
Как отсортировать каждую строку rdd в искре, используя scala?
Мой текстовый файл имеет следующие данные: 10,14,16,19,52 08,09,12,20,45 55,56,70,78,53 Я хочу отсортировать каждую строку в порядке убывания. Я попробовал приведенный ниже код val file = sc.textFile("Maximum values").map(x=>x.split(",")) val sor…
27 сен '18 в 12:35
1
ответ
Интерполяция строки Scala с подчеркиванием
Я новичок в Scala, поэтому не стесняйтесь указывать мне направление документации, но я не смог найти ответ на этот вопрос в своем исследовании. Я использую Scala 2.11.8 с Spark2.2 и пытаюсь создать динамическую строку, содержащую dateString1_dateStr…
06 май '18 в 20:15
2
ответа
Spark 2.2 извлечение даты не работает из unix_timestamp
В Spark 2.2 извлечение даты не работает из входных данных unix_timestamp: +-------------------------+ |UPDATE_TS | +-------------------------+ |26NOV2009:03:27:01.154410| |24DEC2012:00:47:46.805710| |02MAY2013:00:45:33.233844| |21NOV2014:00:33:39.35…
29 июн '18 в 12:58
0
ответов
Отслеживание прогресса приложения Apache Spark / Yarn при детализации задач
Я использую Apache Spark 2 и Yarn для запуска приложения, которое использует SparkContext для запуска нескольких задач. Я ищу способ отслеживать завершения и неудачи на уровне отдельных задач во время работы приложения. В идеале я хотел бы сделать э…
27 май '18 в 17:30
0
ответов
Сохранение искрового фрейма данных в фиксированном формате с различной шириной столбца
У меня есть PySpark dataframe (df), который выглядит так: Входные данные: +----+------------+-----------+ | id | first_name | last_name | +----+------------+-----------+ | 1 | Zed | Seiler | | 2 | Piotr | Ricardon | | 3 | Ardeen | Crotch | | 4 | Dre…
09 фев '19 в 06:22
1
ответ
Почему при агрегации collect_set добавляется оператор Exchange, чтобы присоединиться к запросу таблиц с концами?
Я использую Spark-2.2. Я покажу Спарк ведро. Я создал таблицу с нарезкой, вот desc formatted my_bucketed_tbl выход: +--------------------+--------------------+-------+ | col_name| data_type|comment| +--------------------+--------------------+-------…
21 дек '17 в 14:25
1
ответ
Форматы временных меток и часовые пояса в Spark (scala API)
******* ОБНОВИТЬ ******** Как предложено в комментариях, я исключил не относящуюся к делу часть кода: Мои требования: Унифицировать количество миллисекунд до 3 Преобразовать строку в метку времени и сохранить значение в UTC Создать фрейм данных: val…
01 сен '18 в 06:27
0
ответов
Я сталкиваюсь с проблемой с выводом писателя CSV pyspark2.2
Я хочу перенести код pyspark с 1.6 на 2.x. В 1.6 я использовал синтаксис input_df.repartition(number_of_files) \ .write.mode(file_saveMode) \ .format(file_format) \ .option("header", "true") \ .save(nfs_path) И получал вывод в формате ниже. часть-00…
02 июн '18 в 14:58
1
ответ
Как получить строку, соответствующую минимальному значению некоторого столбца в фрейме данных Scala Spark
У меня есть следующий код. df3 создается с использованием следующего кода. Я хочу получить минимальное значение distance_n, а также всю строку, содержащую это минимальное значение. //it give just the min value , but i want entire row containing that…
08 окт '18 в 05:54
1
ответ
Взрыв Кассандры UDT с плоской картой в Spark 2.x (Scala)
У меня есть данные в Кассандре (3.11.2), которые также являются моей df: Данные в Кассандре: id | some_data -- | --------- 1 | [{s1:"str11", s2:"str12"},{s1:"str13", s2:"str14"}] 2 | [{s1:"str21", s2:"str22"},{s1:"str23", s2:"str24"}] 3 | [{s1:"str3…
25 апр '18 в 06:28
0
ответов
Как загрузить конкретные строки и столбца из таблицы Excel через pyspark в таблицу HIVE?
У меня есть файл Excel, имеющий 4 листа. На каждом рабочем листе первые 3 строки являются пустыми, то есть данные начинаются со строки 4 и продолжаются в течение тысяч строк. Примечание: согласно требованию я не должен удалять пустые строки. Мои цел…
11 сен '18 в 08:29
1
ответ
Читать текстовый файл в pyspark2
Я пытаюсь прочитать текстовый файл в версии 2.3 с помощью Python, но я получаю эту ошибку. Это формат textFile находится в: name marks amar 100 babul 70 ram 98 krish 45 Код: df=spark.read.option("header","true")\ .option("delimiter"," ")\ .option("i…
17 сен '18 в 20:50
0
ответов
Искра - Операция не разрешена: изменить таблицу заменить столбцы
Выглядит как улей replace columns не работает с искрой 2.2.1, а также с 2.3.1 alterSchemaSql : alter table myschema.mytable replace columns (a int,b int,d int) Exception in thread "main" org.apache.spark.sql.catalyst.parser.ParseException: Operation…
17 дек '18 в 23:53