API набора данных Tensorflow: входной конвейер с файлами паркета
Я пытаюсь спроектировать входной конвейер с помощью Dataset API. Я работаю с паркетными файлами. Какой хороший способ добавить их в мой конвейер?
2 ответа
Мы выпустили Petastorm, библиотеку с открытым исходным кодом, которая позволяет вам использовать файлы Apache Parquet напрямую через API Tensorflow Dataset API.
Вот небольшой пример:
with Reader('hdfs://.../some/hdfs/path') as reader:
dataset = make_petastorm_dataset(reader)
iterator = dataset.make_one_shot_iterator()
tensor = iterator.get_next()
with tf.Session() as sess:
sample = sess.run(tensor)
print(sample.id)
Возможно, немного поздно, но похоже, что теперь это доступно непосредственно в Tensorflow.
https://www.tensorflow.org/io/api_docs/python/tfio/experimental/IODataset#from_parquet