Описание тега spark-streaming
Spark Streaming is an extension of the core Apache Spark API that enables high-throughput, fault-tolerant stream processing of live data streams. From the version 1.3.0, it supports exactly-once processing semantics, even in face of failures.
2
ответа
Scala: запись в файл внутри foreachRDD
Я использую потоковую передачу Spark для обработки данных, поступающих с Kafka. И я хотел бы записать результат в файл (на локальном). Когда я печатаю на консоли, все работает нормально, и я получаю свои результаты, но когда я пытаюсь записать это в…
20 июн '17 в 13:08
1
ответ
Проблема интеграции Spark Streaming Kafka в облачной платформе Google
Мы используем Bitnami Kafka 0.8.2 + spark 1.5.2 в облачной платформе Google. Наше искровое потоковое задание (потребитель) не получает всех сообщений, отправленных на конкретную тему. Он получает 1 из ~50 сообщений (добавлен журнал в поток заданий и…
24 дек '15 в 07:32
0
ответов
Spark Streaming - Продолжительность работы против отправленного
Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka, обрабатывает их и сохраняет результаты в различных таблицах базы данных. На вкладке "Задания" в пользовательском интерфейсе Spark отображается продолжите…
30 авг '18 в 09:27
0
ответов
Как запускать параллельные Активные задания в Spark Streaming и честное планирование задач среди исполнителей
Я использую Spark Streaming на Yarn, я сталкиваюсь с проблемами ниже. Выпуск 1: Я использую потоковую искру (1.6.1) на пряже, я всегда вижу количество активных заданий равным 1, что означает, что одновременно выполняется только одно задание. Я испол…
08 дек '16 в 08:19
1
ответ
Параллельное исключение для KafkaConsumer не является безопасным для многопоточного доступа
Мы вызываем работу SparkSQL из потоковой передачи Spark. Мы получаем параллельное исключение, и потребитель Kafka закрывается из-за ошибки. Вот код и детали исключения: Потребительский код Кафки // Start reading messages from Kafka and get DStream f…
15 июл '17 в 07:53
1
ответ
Интеграция Spark Kafka с использованием приемника с WAL
Я читал ниже блог в Databricks https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html Объясняя процесс, как работает интеграция spark kafka с использованием приемника с WAl, он говорит 1. Данные Кафки непрер…
30 июн '17 в 12:53
0
ответов
Как определить лучший коэффициент репликации и количество разделов?
Я получаю ошибку partition 0 does not have a leader когда я пытаюсь использовать сообщения из очереди Кафки в Spark. Напротив, по какой-то причине я могу написать в той же теме без каких-либо проблем от Spark. Я сделал несколько тестов из консоли: /…
06 фев '17 в 20:36
1
ответ
Могу ли я получить максимальный ключ каждого RDD в DStream?
Мне нужно найти самый большой ключ каждого RDD, но когда я использую Reduce (), я получу самый большой ключ во всем Dstream. Например, в этом потоке я хочу получить обратно (2,"b"),(2,"d"),(3,"f"), но я могу получить только (3, "f") от reduce(max)Ка…
20 ноя '16 в 12:41
1
ответ
Как кодировать вызов метода Apache Spark для N числа случаев?
В Core Java-кодировании, если мне нужно написать код для N числа случаев, это будет выглядеть так: int counter=0 while (counter <N) { //do something counter++; } Однако, в случае вызова метода, счетчик будет в драйвере, в то время как код внутри …
23 май '16 в 20:09
2
ответа
StreamingContext с фильтром в Scala/Spark
Я успешно использовал StreamingContext из Scala для подсчета слов: val scc = new StreamingContext(sc,Seconds(1)) val dstream = scc.textFileStream("""file:///pathToDirectoryWindows"""); //dstream is DStream[String] val words = dstream.flatMap(line=&g…
26 май '16 в 08:36
1
ответ
Spark Direct Streaming - использовать одно и то же сообщение у нескольких потребителей.
Как потреблять Kakfa topic messages в нескольких потребителях, использующих Direct Stream approach? Является ли это возможным? Поскольку прямой поток не имеет подхода Consumer Group концепция. Что произойдет, если я пройду group.id как кафкапарамс д…
10 фев '17 в 09:13
0
ответов
Как запустить Spark 2.3 Streaming Pulsar Receiver в Python(PySpark)
Я использую python в качестве языка бэкэнда и хочу запустить spark в качестве приемника потоковых данных от Pulsar. Все, что я нашел, это. Похоже, в настоящее время поддерживается только Java. Можно ли заставить его работать в python (т.е. pyspark)?…
10 апр '18 в 15:26
1
ответ
Количество входных строк в искровой структурированной потоковой передаче с пользовательским приемником
Я использую пользовательский приемник в структурированном потоке (spark 2.2.0) и заметил, что spark создает неверные метрики для количества входных строк - он всегда равен нулю. Моя конструкция потока: StreamingQuery writeStream = session .readStrea…
26 янв '18 в 16:59
1
ответ
Как обновить или даже сбросить строки в персистентной таблице с учетом нескольких одновременных считывателей?
У меня есть таблица exchangeRates, которая обновляется в пакетном режиме один раз в неделю. Это должно использоваться другими пакетными и потоковыми заданиями в разных кластерах - поэтому я хочу сохранить это как постоянную общую таблицу для общего …
13 июл '17 в 09:16
0
ответов
Spark streaming: Output Op Duration больше продолжительности задания
Я использую приложение потоковой передачи искры на EMR. Я замечаю на консоли, Output Op Duration на порядки выше фактического Job Duration, Что делает Spark Output Op Duration - Job Duration знак равно delta? Вот delta ~2,5 минуты, что недопустимо
02 мар '18 в 05:07
0
ответов
Spark DataFrame: группировка по временным промежуткам
My Spark DataFrame содержит следующие данные: user_id | id | timestamp ---------|----|------------------- 123 | 2 | 2018-10-12 9:25:30 123 | 3 | 2018-10-12 9:27:20 123 | 4 | 2018-10-12 9:45:15 123 | 5 | 2018-10-12 9:47:40 234 | 6 | 2018-10-12 9:26:3…
13 окт '18 в 06:57
1
ответ
Как переучивать модели только на новых партиях (без взятия предыдущего набора обучающих данных) в Spark Streaming?
Я пытаюсь написать свою первую модель рекомендаций (Spark 2.0.2), и я хотел бы знать, возможно ли это после первоначального обучения, когда модель проработает всю мою работу, работаю только с дельтой для будущего поезда. Позвольте мне объяснить на п…
25 ноя '16 в 09:46
0
ответов
stateSnapshots по требованию в mapWithState
Я выполняю потоковую передачу данных из Kafka (интервал между партиями 10 секунд), преобразую RDD в PairRDD, а затем сохраняю RDD в состояние с помощью mapWithState(). Ниже приведен код: JavaPairDStream<String, Object> transformedStream = stre…
30 июл '18 в 21:29
0
ответов
Spark Streaming: агрегирование данных, когда временные метки не в порядке
Spark Streaming Job считывает данные о событиях из тем Kafka, агрегирует их по меткам времени и производит подсчет. Теперь проблема в том, что входящие метки времени не в порядке. Они могли бы иметь +/- 5days разница с текущей отметкой времени. Это …
04 окт '18 в 18:58
1
ответ
scala spark - подсчет четных чисел из файла
Я новичок в мире больших данных. Нужна ваша помощь, чтобы сделать это реальностью. Вот мой вопрос. Я читаю данные из txt файла (1,2,3,4,4,4,4) var file=sc.textFile("file:///home/cloudera/MyData/Lab1/numbers.txt") var number=file.flatMap(line=>lin…
17 июн '18 в 07:54