Ошибка нехватки памяти - куча при сохранении паркетных файлов с помощью Flink Table API (Flink версия-1.12.0) в Google Cloud Storage

Question

Ошибка нехватки памяти - куча при сохранении паркетных файлов с помощью Flink Table API (Flink версия-1.12.0) в Google Cloud Storage

Надеюсь у тебя все хорошо. В настоящее время мы используем Flink Table API (Flink Version-1.12.0) для потоковой передачи данных из Kafka и хранения их в Google Cloud Storage. Формат файла, который мы используем для хранения данных, - Parquet. Первоначально работа Flink работала отлично, и мы могли передавать данные в потоковом режиме и успешно хранить их в Google Cloud Storage. Но мы заметили, что как только мы увеличим количество входных данных, а также увеличим объем данных в Kafka, то есть поток большего количества событий в секунду в Kafka, мы заметили, что задание Flink выдает следующие ошибки:

Превышен предел GC
Java Heap memory Out of Space- Ошибка.

Мы пробовали запускать flink с помощью Kubernetes Cluster и flink на YARN. В обоих случаях по мере увеличения объема данных мы видели указанные выше ошибки. Мы предоставили 2 диспетчера задач по 10 ГБ каждый и 1 ГБ для диспетчера заданий. Интервал контрольной точки, который у нас есть для нашей работы, составляет 3 минуты. Мне известно, что в Flink- https://issues.apache.org/jira/browse/FLINK-20945 была зарегистрирована ошибка . Пожалуйста, дайте мне знать, если есть способ решить эту проблему.

1

apache-flink flink-sql flink-table-api

Источник

user4782811 26 мар '21 в 02:07

0 ответов

Другие вопросы по тегам apache-flink flink-sql flink-table-api