Описание тега dstream

Discretized Streams (D-Stream) is an approach that handles streaming computations as a series of deterministic batch computations on small time intervals.
1 ответ

Spark потоковой передачи JavaPairDStream в текстовый файл

Я довольно новичок в потоковой передаче Spark, и я застрял, сохраняя свои результаты. У меня вопрос, как я могу сохранить выходные данные моего JavaPairDStream в текстовом файле, который обновляется для каждого файла только с элементами внутри DStre…
07 дек '16 в 17:22
3 ответа

Объединить spark dStream с переменной в saveToCassandra()

У меня есть DStream[String, Int] с количеством пар слов, например ("hello" -> 10), Я хочу записать эти подсчеты Кассандре с индексом шага. Индекс инициализируется как var step = 1 и увеличивается с каждой обработанной микробатикой. Таблица Кассан…
1 ответ

Как получить декартово произведение двух DStream в Spark Streaming с помощью Scala?

У меня есть два DStreams. Позволять A:DStream[X] а также B:DStream[Y], Я хочу получить декартово произведение их, другими словами, новый C:DStream[(X, Y)] содержащий все пары X а также Y ценности. Я знаю, что есть cartesian функция для СДР. Мне удал…
1 ответ

pyspark updateStateByKey завершается ошибкой при вызове моей функции

Я просто пытаюсь запустить пример кода StateFu Lstreaming, но он не удается с ошибкой. Не могу понять, почему это происходит. Spark 2.3 с питоном 3.6 на Cloudera VM 5.13.3 Варианты запуска: --master local[*] --queue PyCharmSpark pyspark-shell Мой ко…
1 ответ

Параллельные преобразования на RDD в функции foreachDD Spark DStream

В следующем коде представляется, что функции fn1 и fn2 применяются к inRDD последовательно, как я вижу в разделе "Этапы" веб-интерфейса Spark. DstreamRDD1.foreachRDD(new VoidFunction<JavaRDD<String>>() { public void call(JavaRDD<Strin…
22 ноя '16 в 00:55
1 ответ

Как переносить потоки данных через несколько интервалов в Spark Streaming

Я использую Apache Spark Streaming 1.6.1 для написания Java-приложения, которое объединяет два потока данных Key/Value и записывает вывод в HDFS. Два потока данных содержат K/V-строки и периодически поступают в Spark из HDFS с помощью textFileStream…
20 май '16 в 22:22
1 ответ

Поток Apache Spark - длительный пакет времени ожидания

Я настраиваю долгосрочное потоковое задание Apache Spark для выполнения (не распараллеленного) потокового вещания с использованием InputDStream. Я пытаюсь достичь того, что когда пакет в очереди занимает слишком много времени (на основе заданного по…
1 ответ

pyspark - ошибка записи dstream в asticsearch

У меня проблема с индексацией данных от потоковой передачи искры (pyspark) до упругого поиска. данные имеют тип dstream, Ниже как это выглядит (u'01B', 0) (u'1A5', 1) .... Вот эластичный индекс, который я использую: индекс = кластер и тип = данные G…
25 июл '17 в 14:06
1 ответ

Флаттен присоединился к DStream

Я объединил некоторые DStream вместе, так что текущий "тип данных" DStream выглядит следующим образом (ключ и значения): DStream[(Long,((DateTime,Int),((Int,Double),Double)))] Но я хочу получить: DStream[(Long,DateTime,Int,Int,Double,Double)] или же…
06 окт '15 в 09:53
2 ответа

Увеличьте количество разделов в Dstream, чтобы они были больше, чем разделы Kafka в прямом подходе

Это 32 перегородки Kafka и 32 потребителя по прямому подходу. Но обработка данных для 32 потребителей идет медленнее, чем скорость Кафки (в 1,5 раза), что создает отставание данных в Кафке. Хочу увеличить количество разделов для Dstream, полученных …
1 ответ

Искра QueueStream никогда не исчерпывается

Озадаченный частью кода, которую я позаимствовал из Интернета для исследовательских целей. Это код: import org.apache.spark.sql.SparkSession import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.c…
04 янв '19 в 10:50
0 ответов

Записать Spark Dstream в один файл в Google Cloud Storage

Кто-нибудь работал над scala-разработкой для записи искровых потоков в один объединенный файл в облачном хранилище Google . На самом деле, я попробовал несколько методов, и все они не работали, поэтому я пытаюсь работать с новым, основанным на испол…
0 ответов

Spark Streaming - пользовательский приемник Travis CI и GitHub - непрерывные данные, но пустой RDD?

В последнее время, как часть научного исследования, я разрабатывал приложение, которое передает (или, по крайней мере, должно) данные из Travis CI и GitHub, используя их REST API. Цель этого состоит в том, чтобы получить представление об отношениях …
05 мар '16 в 14:05
0 ответов

Спарк дстрик запись в один файл

Я работаю над проектом, который развивает чтение из PubSub с потоковой передачей искры и запись на флодер в ведре GCP. Я не могу добиться записи в один файл для всех сообщений, извлеченных из темы pubsub. на самом деле, я получаю файл за одно сообще…
1 ответ

Класс Case в foreachRDD вызывает ошибку сериализации

Я могу создать DF внутри foreachRDD, если я не попытаюсь использовать Case Class и просто позволю делать имена столбцов по умолчанию с помощью toDF() или если я назначу их через toDF("c1, "c2"). Как только я пытаюсь использовать Case Class и, глядя …
05 янв '19 в 21:54
0 ответов

Spark Streaming - Как получить результаты из функции foreachRDD?

Я пытаюсь читать сообщения Кафки с помощью Spark Streaming, делать некоторые вычисления и отправлять результаты другому процессу. val jsonObject = new JSONObject val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder…
12 июл '17 в 00:21
1 ответ

Функция mapValues ​​в классе DStream не найдена

Я хочу внести некоторые изменения в алгоритм StreamingKMeans, предоставляемый в Spark Streaming, поэтому я создал проект, содержащий необходимые файлы, но, к сожалению, я не могу найти функцию mapValues ​​в классе DStream! def predictOnValues[K: Cla…
23 мар '15 в 14:19
1 ответ

Как я могу вернуть два DStreams в функцию после использования преобразования фильтра в потоковой передаче искры?

В функции есть ли способ вернуть два DStreams после использования filter? Например, когда я фильтрую DStreamотфильтрованные будут сохранены в DStream а нефильтрованные будут храниться в другом DStream,
21 апр '16 в 13:09
0 ответов

Присоединение DStream и RDD с контрольными точками

Я боролся за объединение DStream и RDD. Чтобы установить сцену: Искра - 2.3.1 Python - 3.6.3 РДД Я читаю в RDD из файла CSV, разделяю записи и создаю пару RDD. sku_prices = sc.textFile("sku-catalog.csv")\ .map(lambda line: line.split(","))\ .map(lam…
03 сен '18 в 07:21
0 ответов

SparkStreaming - пустая широковещательная переменная при обновлении на определенный промежуток времени

Требование: обновлять широковещательную переменную каждую минуту из базы данных MySQL. Процесс - для каждого нового rdd проверяется переменная широковещания. если его значение не равно нулю и интервал времени меньше минуты, то получение данных из ши…