Ошибка нехватки памяти - куча при сохранении паркетных файлов с помощью Flink Table API (Flink версия-1.12.0) в Google Cloud Storage
Надеюсь у тебя все хорошо. В настоящее время мы используем Flink Table API (Flink Version-1.12.0) для потоковой передачи данных из Kafka и хранения их в Google Cloud Storage. Формат файла, который мы используем для хранения данных, - Parquet. Первоначально работа Flink работала отлично, и мы могли передавать данные в потоковом режиме и успешно хранить их в Google Cloud Storage. Но мы заметили, что как только мы увеличим количество входных данных, а также увеличим объем данных в Kafka, то есть поток большего количества событий в секунду в Kafka, мы заметили, что задание Flink выдает следующие ошибки:
- Превышен предел GC
- Java Heap memory Out of Space- Ошибка.
Мы пробовали запускать flink с помощью Kubernetes Cluster и flink на YARN. В обоих случаях по мере увеличения объема данных мы видели указанные выше ошибки. Мы предоставили 2 диспетчера задач по 10 ГБ каждый и 1 ГБ для диспетчера заданий. Интервал контрольной точки, который у нас есть для нашей работы, составляет 3 минуты. Мне известно, что в Flink- https://issues.apache.org/jira/browse/FLINK-20945 была зарегистрирована ошибка . Пожалуйста, дайте мне знать, если есть способ решить эту проблему.