Flink читает отсортированные события, но сортировка не сохраняется после разделения
Использование ФлинкаRichSourceFunction
Я читаю файл, в котором события отсортированы по полю метки времени. Файл очень большой по размеру, 500Гб. Я читаю этот файл последовательно, используя только одно разделение (TimeStampedFileSplit
) для всего файла и раздела считается 1. На данный момент я не использую никаких водяных знаков или окон. Затем, прочитав этот файл, я выполняю операцию KeyBy в другом поле и распределяю данные по нескольким разделам. Итак, после распределения данных я заметил, что в некоторых разделах события не сортируются по меткам времени. Почему это может произойти и как обеспечить постоянную сортировку событий? Есть ли какое-либо теоретическое объяснение или доказательство этому?