Как прочитать несколько CSV-файлов в расширении Tensorflow?

Я немного читал о Tensorflow Extension (TFX) и хочу попробовать его использовать.

В компоненте ExampleGen я заметил, что ExampleGen может работать с csvs, BigQuery и существующими файлами TFRecord. Это немного ограничено, но хорошо.

Мне было интересно, какой правильный подход будет загружать данные в ExampleGen из нескольких CSV? Скажем, у меня был один CSV для моих пользователей и один CSV для продаж, и я хочу загрузить их обоих в свой конвейер, где разработка функций на этапе преобразования объединит оба CSV в некотором значимом смысле. Существующие примеры для ExampleGen в документации можно найти здесь:

https://www.tensorflow.org/tfx/guide/examplegen

и предлагаемый код выглядит следующим образом:

from tfx.utils.dsl_utils import csv_input
from tfx.components.example_gen.csv_example_gen.component import CsvExampleGen

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples) 

Каков наилучший способ загрузки нескольких csvs для создания записей tf.Example, которые, как ожидается, будут возвращены ExampleGen? Или лучше было бы как-то объединить несколько CSV в один CSV?

Я предполагаю, что очевидный ответ - построить следующее для каждого CSV:

examples = csv_input(os.path.join(base_dir, 'data/simple'))
example_gen = CsvExampleGen(input_base=examples) 

но тогда в конце у меня будет список объектов CsvExampleGen. Я читал, что Transform ожидает "tf.Examples из компонента ExampleGen", что делает его звучащим так, как будто он может обрабатывать множественные tf.Examples, но я не знаю, нужно ли их каким-либо образом объединять или объединять перед передачей в Transform.

0 ответов

Другие вопросы по тегам