Перемещение данных из неизменяемого сегмента s3 в дельта-формат на блоках данных
Я новичок в delta lake и пытаюсь преобразовать часто используемые файлы паркета, хранящиеся на S3, в delta. Наша проблема в том, что исходное ведро S3 доступно только для чтения. Мы загружаем это ведро инкрементными данными с каждой загрузкой. Мой вопрос в том, какая стратегия может быть оптимальной для преобразования этих исходных таблиц в дельту.
- Следует ли мне читать инкрементные данные и загружать в дельта-таблицы?
- Или просто попробуйте скопировать новый паркетный файл прямо в дельту. Или любой другой подход?