TensorFlow Transform Python с использованием AWS S3 в качестве источника данных
Я пытаюсь запустить TensorFlow Transform, используя Python, Apache Flink в качестве Beam Runner. Я заметил, что Beam не имеет AWS S3 в качестве разъема io, и хотел бы узнать, как это обойти.
Вот список поддерживаемых io-коннекторов, но Python+S3 даже не включен в план.
Я могу думать о двух работах вокруг:
- смонтировать ведро S3 как локальный диск к экземпляру EC2
- Напишите мой собственный разъем Python S3, используя их руководство.
Я хочу знать, есть ли другой творческий (легкий) выход.
Спасибо!