Проблема интеграции Spark Streaming Kafka в облачной платформе Google

Мы используем Bitnami Kafka 0.8.2 + spark 1.5.2 в облачной платформе Google. Наше искровое потоковое задание (потребитель) не получает всех сообщений, отправленных на конкретную тему. Он получает 1 из ~50 сообщений (добавлен журнал в поток заданий и определен). Мы не видим ошибок в логах кафки. Невозможно выполнить дальнейшую отладку из слоя kafka. Потребитель консоли показывает, что тема INPUT получена в консоли. оно не достигает потока интеграции искра-кафка. Любые мысли, как отладить эту проблему. Другая тема работает нормально в той же настройке. Снова попробовал со свечой 1.3.0, kafka 0.8.1.1, которая также имеет ту же проблему. Все эти задания работают нормально на наших локальных лабораторных серверах.

1 ответ

Фактическая первопричина была - несовместимость Apache Cassandra с Spark-Cassandra-Connector. Хотя мы использовали согласованный соединитель и версию Apache Cassandra, некоторые сообщения Cassandra застряли. Использование ЦП узлов Кассандры в большинстве случаев превышало 98%. Поменял кассандру на версию кассандры Datastax - и.... она просто отлично работала!!! Никаких изменений кода не требовалось.

Другие вопросы по тегам