Описание тега spark-kaka

0 ответов

Задержка печати при получении потоков в Spark от Kafka

Привет, я посылаю потоки JSON из Кафки в Spark. Я хочу знать, есть ли способ, которым я могу напечатать задержку в получении потоков в Spark? Я хочу знать разницу в задержке между использованием 1 брокера Kafka и 3 брокеров Kafka.
24 апр '18 в 13:57
0 ответов

Spark работа метания NPE

В работе Spark я читаю из Kafka и после некоторых вычислений я сохраняю данные в Cassandra. Исходный код import static com.datastax.spark.connector.japi.CassandraJavaUtil.javaFunctions; import static com.datastax.spark.connector.japi.CassandraJavaUt…
0 ответов

Потоковая передача нескольких тем Kafka одновременно с использованием Spark

Я использую Spark версии 2.1, и мне нужно передавать данные одновременно из нескольких тем Kafka. Я старался spark.streaming.concurrentJobs чтобы добиться этого, но это не работает. Я создал логику обработки в целом. Есть ли другой способ добиться э…
0 ответов

Чтение сообщений Avro от Kafka с использованием структурированной потоковой передачи в Spark 2.1

Я следил за сообщением @Ralph Gonzalez в этой теме, читая сообщения Avro от Kafka с использованием структурированного потокового вещания в Spark 2.1, но получаю следующую ошибку. org.apache.avro.AvroRuntimeException: Malformed data. Length is negati…
1 ответ

Не удалось найти лидера для Set([topic,0]) с интеграцией Kafka-Spark

Я пытаюсь использовать SSL для интеграции Kafka-Spark. Я протестировал Kafka с включенным SSL, и он отлично работает с образцами потребителей и производителей. Кроме того, я попробовал интеграцию Spark-Kafka, которая также работает без проблем, когд…
1 ответ

Включение SSL между Apache spark и Kafka broker

Я пытаюсь включить SSL между моим Apache Spark 1.4.1 и Kafka 0.9.0.0, и я использую spark-streaming-kafka_2.10 Баночка для подключения к Кафке и я использую KafkaUtils.createDirectStream Способ чтения данных из темы Кафки. Первоначально у меня возни…
0 ответов

Висит искра kafka 10 (DirectStream)

Похоже, что у нас возникла та же проблема, как описано здесь: https://issues.apache.org/jira/browse/SPARK-20780 Я уже знаю, что это проблема Кафки, а не искры, но все же хотел бы получить совет о том, как действовать, пока эта проблема не будет реше…
05 июл '17 в 15:40
1 ответ

Как сохранить фрейм данных Kafka-Spark Streaming в один файл

Как сохранить фрейм данных Kafka-Spark Streaming в один файл Я разработал приложение, которое будет принимать сообщения, используя процесс Kafka-Spark Streaming. Как только данные получены, они преобразуются в фрейм данных. Затем фрейм потоковых дан…
0 ответов

Проблема с зависимостями в Spark - Ошибка получения java.lang.NoClassDefFoundError: org/apache/spark/internal/Logging

Вот мой pom.xml My Spark Consumer завершается с ошибкой "logging". Существует некоторая проблема совместимости с jars. Я использовал версию 1.5.2, все еще получающую ошибку. Есть ли проблема с spark-streaming-kafka-0-10_2.10(пробовал разные версии) …
1 ответ

Метод Spark RDD isEmpty создает исключение NullPointerException, если значение RDD не равно нулю

Это застало меня врасплох (объясняя кому-то, к сожалению). Мне интересно, что происходит внутри искры в следующем фрагменте. val rdd = sc.parallelize(null) rdd == null //false rdd.isEmpty //NullPointerException Прежде чем спросить, я согласен распар…
2 ответа

Получена неправильная запись для spark-executor-<groupid> <topic> 0 даже после попытки смещения <number>

Моя работа Spark вызывает исключение, как показано ниже: Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localh…
0 ответов

Можем ли мы сохранить смещение Spark-SQL-Kafka в таблице MySQL вместо HDFS или S3

У меня есть простая программа Spark-SQL-Kafka, которая читает из Kafka и пишет в HDFS. Для проверки я использовал HDFS и S3 в прошлом, он отлично работает. Есть ли способ, где я могу использовать MySQL для проверки чека? .option("checkpointLocation"…
30 авг '18 в 14:33
0 ответов

Какое количество ядер и исполнителей подходит для потокового приложения Spark?

У меня есть потоковое приложение Spark, которое читает из 4 разных тем Kafka, и у каждой темы есть 3 раздела. Операция чтения выполняется в разные моменты времени (у меня последовательно обрабатываются 4 конвейера), поэтому, по моей идее, мне нужно …
1 ответ

Как сохранить прямой поток Кафки JSON в Кассандру?

Я должен сохранить данные потоковой передачи в Cassandra. Поток идет от Kafka и сообщение Kafka в формате JSON, как показано ниже. { "status": "NOT_AVAILABLE", "itemid": "550672332", "qty": 0, "lmts": "2017-11-18T10:39:21-08:00", "timestamp": 151103…
0 ответов

Проблемы со вставкой Kafka Spark в HBase

Я использую Kafka для отправки файла с 3 столбцами, используя Spark Streaming 1.3 для вставки в HBase. Вот так выглядит мой HBase: ROW COLUMN+CELL zone:bizert column=travail:call, timestamp=1491836364921, value=contact:numero zone:jendouba column=tr…
0 ответов

Spark Streaming (Spark 1.6) с использованием CommitAsync API от Kafka 0.10

Нам нужно использовать commitAsync API потребителя Кафки. Он доступен с версиями Kafka 0.9 и 0.10. Можно ли использовать версию Spark Streaming 1.6 с Kafka 0.10? Что касается блогов и сайтов, которые я читал, Kafka 0.10 используется / поддерживается…