API набора данных Tensorflow: входной конвейер с файлами паркета

Я пытаюсь спроектировать входной конвейер с помощью Dataset API. Я работаю с паркетными файлами. Какой хороший способ добавить их в мой конвейер?

2 ответа

Мы выпустили Petastorm, библиотеку с открытым исходным кодом, которая позволяет вам использовать файлы Apache Parquet напрямую через API Tensorflow Dataset API.

Вот небольшой пример:

   with Reader('hdfs://.../some/hdfs/path') as reader:
        dataset = make_petastorm_dataset(reader)
        iterator = dataset.make_one_shot_iterator()
        tensor = iterator.get_next()
        with tf.Session() as sess:
            sample = sess.run(tensor)
            print(sample.id)

Возможно, немного поздно, но похоже, что теперь это доступно непосредственно в Tensorflow.

https://www.tensorflow.org/io/api_docs/python/tfio/experimental/IODataset#from_parquet

Другие вопросы по тегам