Описание тега spark-streaming

Spark Streaming is an extension of the core Apache Spark API that enables high-throughput, fault-tolerant stream processing of live data streams. From the version 1.3.0, it supports exactly-once processing semantics, even in face of failures.
2 ответа

Scala: запись в файл внутри foreachRDD

Я использую потоковую передачу Spark для обработки данных, поступающих с Kafka. И я хотел бы записать результат в файл (на локальном). Когда я печатаю на консоли, все работает нормально, и я получаю свои результаты, но когда я пытаюсь записать это в…
20 июн '17 в 13:08
1 ответ

Проблема интеграции Spark Streaming Kafka в облачной платформе Google

Мы используем Bitnami Kafka 0.8.2 + spark 1.5.2 в облачной платформе Google. Наше искровое потоковое задание (потребитель) не получает всех сообщений, отправленных на конкретную тему. Он получает 1 из ~50 сообщений (добавлен журнал в поток заданий и…
0 ответов

Spark Streaming - Продолжительность работы против отправленного

Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka, обрабатывает их и сохраняет результаты в различных таблицах базы данных. На вкладке "Задания" в пользовательском интерфейсе Spark отображается продолжите…
30 авг '18 в 09:27
0 ответов

Как запускать параллельные Активные задания в Spark Streaming и честное планирование задач среди исполнителей

Я использую Spark Streaming на Yarn, я сталкиваюсь с проблемами ниже. Выпуск 1: Я использую потоковую искру (1.6.1) на пряже, я всегда вижу количество активных заданий равным 1, что означает, что одновременно выполняется только одно задание. Я испол…
08 дек '16 в 08:19
1 ответ

Параллельное исключение для KafkaConsumer не является безопасным для многопоточного доступа

Мы вызываем работу SparkSQL из потоковой передачи Spark. Мы получаем параллельное исключение, и потребитель Kafka закрывается из-за ошибки. Вот код и детали исключения: Потребительский код Кафки // Start reading messages from Kafka and get DStream f…
15 июл '17 в 07:53
1 ответ

Интеграция Spark Kafka с использованием приемника с WAL

Я читал ниже блог в Databricks https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html Объясняя процесс, как работает интеграция spark kafka с использованием приемника с WAl, он говорит 1. Данные Кафки непрер…
0 ответов

Как определить лучший коэффициент репликации и количество разделов?

Я получаю ошибку partition 0 does not have a leader когда я пытаюсь использовать сообщения из очереди Кафки в Spark. Напротив, по какой-то причине я могу написать в той же теме без каких-либо проблем от Spark. Я сделал несколько тестов из консоли: /…
1 ответ

Могу ли я получить максимальный ключ каждого RDD в DStream?

Мне нужно найти самый большой ключ каждого RDD, но когда я использую Reduce (), я получу самый большой ключ во всем Dstream. Например, в этом потоке я хочу получить обратно (2,"b"),(2,"d"),(3,"f"), но я могу получить только (3, "f") от reduce(max)Ка…
20 ноя '16 в 12:41
1 ответ

Как кодировать вызов метода Apache Spark для N числа случаев?

В Core Java-кодировании, если мне нужно написать код для N числа случаев, это будет выглядеть так: int counter=0 while (counter <N) { //do something counter++; } Однако, в случае вызова метода, счетчик будет в драйвере, в то время как код внутри …
23 май '16 в 20:09
2 ответа

StreamingContext с фильтром в Scala/Spark

Я успешно использовал StreamingContext из Scala для подсчета слов: val scc = new StreamingContext(sc,Seconds(1)) val dstream = scc.textFileStream("""file:///pathToDirectoryWindows"""); //dstream is DStream[String] val words = dstream.flatMap(line=&g…
26 май '16 в 08:36
1 ответ

Spark Direct Streaming - использовать одно и то же сообщение у нескольких потребителей.

Как потреблять Kakfa topic messages в нескольких потребителях, использующих Direct Stream approach? Является ли это возможным? Поскольку прямой поток не имеет подхода Consumer Group концепция. Что произойдет, если я пройду group.id как кафкапарамс д…
10 фев '17 в 09:13
0 ответов

Как запустить Spark 2.3 Streaming Pulsar Receiver в Python(PySpark)

Я использую python в качестве языка бэкэнда и хочу запустить spark в качестве приемника потоковых данных от Pulsar. Все, что я нашел, это. Похоже, в настоящее время поддерживается только Java. Можно ли заставить его работать в python (т.е. pyspark)?…
1 ответ

Количество входных строк в искровой структурированной потоковой передаче с пользовательским приемником

Я использую пользовательский приемник в структурированном потоке (spark 2.2.0) и заметил, что spark создает неверные метрики для количества входных строк - он всегда равен нулю. Моя конструкция потока: StreamingQuery writeStream = session .readStrea…
1 ответ

Как обновить или даже сбросить строки в персистентной таблице с учетом нескольких одновременных считывателей?

У меня есть таблица exchangeRates, которая обновляется в пакетном режиме один раз в неделю. Это должно использоваться другими пакетными и потоковыми заданиями в разных кластерах - поэтому я хочу сохранить это как постоянную общую таблицу для общего …
0 ответов

Spark streaming: Output Op Duration больше продолжительности задания

Я использую приложение потоковой передачи искры на EMR. Я замечаю на консоли, Output Op Duration на порядки выше фактического Job Duration, Что делает Spark Output Op Duration - Job Duration знак равно delta? Вот delta ~2,5 минуты, что недопустимо
02 мар '18 в 05:07
0 ответов

Spark DataFrame: группировка по временным промежуткам

My Spark DataFrame содержит следующие данные: user_id | id | timestamp ---------|----|------------------- 123 | 2 | 2018-10-12 9:25:30 123 | 3 | 2018-10-12 9:27:20 123 | 4 | 2018-10-12 9:45:15 123 | 5 | 2018-10-12 9:47:40 234 | 6 | 2018-10-12 9:26:3…
1 ответ

Как переучивать модели только на новых партиях (без взятия предыдущего набора обучающих данных) в Spark Streaming?

Я пытаюсь написать свою первую модель рекомендаций (Spark 2.0.2), и я хотел бы знать, возможно ли это после первоначального обучения, когда модель проработает всю мою работу, работаю только с дельтой для будущего поезда. Позвольте мне объяснить на п…
0 ответов

stateSnapshots по требованию в mapWithState

Я выполняю потоковую передачу данных из Kafka (интервал между партиями 10 секунд), преобразую RDD в PairRDD, а затем сохраняю RDD в состояние с помощью mapWithState(). Ниже приведен код: JavaPairDStream<String, Object> transformedStream = stre…
30 июл '18 в 21:29
0 ответов

Spark Streaming: агрегирование данных, когда временные метки не в порядке

Spark Streaming Job считывает данные о событиях из тем Kafka, агрегирует их по меткам времени и производит подсчет. Теперь проблема в том, что входящие метки времени не в порядке. Они могли бы иметь +/- 5days разница с текущей отметкой времени. Это …
1 ответ

scala spark - подсчет четных чисел из файла

Я новичок в мире больших данных. Нужна ваша помощь, чтобы сделать это реальностью. Вот мой вопрос. Я читаю данные из txt файла (1,2,3,4,4,4,4) var file=sc.textFile("file:///home/cloudera/MyData/Lab1/numbers.txt") var number=file.flatMap(line=>lin…