Как прочитать несколько CSV-файлов в расширении Tensorflow?
Я немного читал о Tensorflow Extension (TFX) и хочу попробовать его использовать.
В компоненте ExampleGen я заметил, что ExampleGen может работать с csvs, BigQuery и существующими файлами TFRecord. Это немного ограничено, но хорошо.
Мне было интересно, какой правильный подход будет загружать данные в ExampleGen из нескольких CSV? Скажем, у меня был один CSV для моих пользователей и один CSV для продаж, и я хочу загрузить их обоих в свой конвейер, где разработка функций на этапе преобразования объединит оба CSV в некотором значимом смысле. Существующие примеры для ExampleGen в документации можно найти здесь:
https://www.tensorflow.org/tfx/guide/examplegen
и предлагаемый код выглядит следующим образом:
from tfx.utils.dsl_utils import csv_input
from tfx.components.example_gen.csv_example_gen.component import CsvExampleGen
examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples)
Каков наилучший способ загрузки нескольких csvs для создания записей tf.Example, которые, как ожидается, будут возвращены ExampleGen? Или лучше было бы как-то объединить несколько CSV в один CSV?
Я предполагаю, что очевидный ответ - построить следующее для каждого CSV:
examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples)
но тогда в конце у меня будет список объектов CsvExampleGen. Я читал, что Transform ожидает "tf.Examples из компонента ExampleGen", что делает его звучащим так, как будто он может обрабатывать множественные tf.Examples, но я не знаю, нужно ли их каким-либо образом объединять или объединять перед передачей в Transform.