Описание тега dstream
Discretized Streams (D-Stream) is an approach that handles streaming computations as a series of deterministic batch computations on small time intervals.
1
ответ
Spark потоковой передачи JavaPairDStream в текстовый файл
Я довольно новичок в потоковой передаче Spark, и я застрял, сохраняя свои результаты. У меня вопрос, как я могу сохранить выходные данные моего JavaPairDStream в текстовом файле, который обновляется для каждого файла только с элементами внутри DStre…
07 дек '16 в 17:22
3
ответа
Объединить spark dStream с переменной в saveToCassandra()
У меня есть DStream[String, Int] с количеством пар слов, например ("hello" -> 10), Я хочу записать эти подсчеты Кассандре с индексом шага. Индекс инициализируется как var step = 1 и увеличивается с каждой обработанной микробатикой. Таблица Кассан…
02 ноя '16 в 23:04
1
ответ
Как получить декартово произведение двух DStream в Spark Streaming с помощью Scala?
У меня есть два DStreams. Позволять A:DStream[X] а также B:DStream[Y], Я хочу получить декартово произведение их, другими словами, новый C:DStream[(X, Y)] содержащий все пары X а также Y ценности. Я знаю, что есть cartesian функция для СДР. Мне удал…
18 июл '16 в 09:45
1
ответ
pyspark updateStateByKey завершается ошибкой при вызове моей функции
Я просто пытаюсь запустить пример кода StateFu Lstreaming, но он не удается с ошибкой. Не могу понять, почему это происходит. Spark 2.3 с питоном 3.6 на Cloudera VM 5.13.3 Варианты запуска: --master local[*] --queue PyCharmSpark pyspark-shell Мой ко…
27 авг '18 в 18:56
1
ответ
Параллельные преобразования на RDD в функции foreachDD Spark DStream
В следующем коде представляется, что функции fn1 и fn2 применяются к inRDD последовательно, как я вижу в разделе "Этапы" веб-интерфейса Spark. DstreamRDD1.foreachRDD(new VoidFunction<JavaRDD<String>>() { public void call(JavaRDD<Strin…
22 ноя '16 в 00:55
1
ответ
Как переносить потоки данных через несколько интервалов в Spark Streaming
Я использую Apache Spark Streaming 1.6.1 для написания Java-приложения, которое объединяет два потока данных Key/Value и записывает вывод в HDFS. Два потока данных содержат K/V-строки и периодически поступают в Spark из HDFS с помощью textFileStream…
20 май '16 в 22:22
1
ответ
Поток Apache Spark - длительный пакет времени ожидания
Я настраиваю долгосрочное потоковое задание Apache Spark для выполнения (не распараллеленного) потокового вещания с использованием InputDStream. Я пытаюсь достичь того, что когда пакет в очереди занимает слишком много времени (на основе заданного по…
07 июл '17 в 17:42
1
ответ
pyspark - ошибка записи dstream в asticsearch
У меня проблема с индексацией данных от потоковой передачи искры (pyspark) до упругого поиска. данные имеют тип dstream, Ниже как это выглядит (u'01B', 0) (u'1A5', 1) .... Вот эластичный индекс, который я использую: индекс = кластер и тип = данные G…
25 июл '17 в 14:06
1
ответ
Флаттен присоединился к DStream
Я объединил некоторые DStream вместе, так что текущий "тип данных" DStream выглядит следующим образом (ключ и значения): DStream[(Long,((DateTime,Int),((Int,Double),Double)))] Но я хочу получить: DStream[(Long,DateTime,Int,Int,Double,Double)] или же…
06 окт '15 в 09:53
2
ответа
Увеличьте количество разделов в Dstream, чтобы они были больше, чем разделы Kafka в прямом подходе
Это 32 перегородки Kafka и 32 потребителя по прямому подходу. Но обработка данных для 32 потребителей идет медленнее, чем скорость Кафки (в 1,5 раза), что создает отставание данных в Кафке. Хочу увеличить количество разделов для Dstream, полученных …
22 авг '18 в 12:44
1
ответ
Искра QueueStream никогда не исчерпывается
Озадаченный частью кода, которую я позаимствовал из Интернета для исследовательских целей. Это код: import org.apache.spark.sql.SparkSession import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.c…
04 янв '19 в 10:50
0
ответов
Записать Spark Dstream в один файл в Google Cloud Storage
Кто-нибудь работал над scala-разработкой для записи искровых потоков в один объединенный файл в облачном хранилище Google . На самом деле, я попробовал несколько методов, и все они не работали, поэтому я пытаюсь работать с новым, основанным на испол…
16 авг '18 в 13:49
0
ответов
Spark Streaming - пользовательский приемник Travis CI и GitHub - непрерывные данные, но пустой RDD?
В последнее время, как часть научного исследования, я разрабатывал приложение, которое передает (или, по крайней мере, должно) данные из Travis CI и GitHub, используя их REST API. Цель этого состоит в том, чтобы получить представление об отношениях …
05 мар '16 в 14:05
0
ответов
Спарк дстрик запись в один файл
Я работаю над проектом, который развивает чтение из PubSub с потоковой передачей искры и запись на флодер в ведре GCP. Я не могу добиться записи в один файл для всех сообщений, извлеченных из темы pubsub. на самом деле, я получаю файл за одно сообще…
13 авг '18 в 14:47
1
ответ
Класс Case в foreachRDD вызывает ошибку сериализации
Я могу создать DF внутри foreachRDD, если я не попытаюсь использовать Case Class и просто позволю делать имена столбцов по умолчанию с помощью toDF() или если я назначу их через toDF("c1, "c2"). Как только я пытаюсь использовать Case Class и, глядя …
05 янв '19 в 21:54
0
ответов
Spark Streaming - Как получить результаты из функции foreachRDD?
Я пытаюсь читать сообщения Кафки с помощью Spark Streaming, делать некоторые вычисления и отправлять результаты другому процессу. val jsonObject = new JSONObject val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder…
12 июл '17 в 00:21
1
ответ
Функция mapValues в классе DStream не найдена
Я хочу внести некоторые изменения в алгоритм StreamingKMeans, предоставляемый в Spark Streaming, поэтому я создал проект, содержащий необходимые файлы, но, к сожалению, я не могу найти функцию mapValues в классе DStream! def predictOnValues[K: Cla…
23 мар '15 в 14:19
1
ответ
Как я могу вернуть два DStreams в функцию после использования преобразования фильтра в потоковой передаче искры?
В функции есть ли способ вернуть два DStreams после использования filter? Например, когда я фильтрую DStreamотфильтрованные будут сохранены в DStream а нефильтрованные будут храниться в другом DStream,
21 апр '16 в 13:09
0
ответов
Присоединение DStream и RDD с контрольными точками
Я боролся за объединение DStream и RDD. Чтобы установить сцену: Искра - 2.3.1 Python - 3.6.3 РДД Я читаю в RDD из файла CSV, разделяю записи и создаю пару RDD. sku_prices = sc.textFile("sku-catalog.csv")\ .map(lambda line: line.split(","))\ .map(lam…
03 сен '18 в 07:21
0
ответов
SparkStreaming - пустая широковещательная переменная при обновлении на определенный промежуток времени
Требование: обновлять широковещательную переменную каждую минуту из базы данных MySQL. Процесс - для каждого нового rdd проверяется переменная широковещания. если его значение не равно нулю и интервал времени меньше минуты, то получение данных из ши…
17 ноя '17 в 03:02