Tensorflow TFDV не работает с определенными значениями NaN
Я использую Tensorflow Data Validation для генерации статистики из данных и вывода схемы для ввода в TFX.
Я не нашел никакой опции для указания значений NaN, например, в пандах есть поле "na_values", где можно указать, какое значение будет считаться NaN при чтении данных.
Я просмотрел всю документацию по TFDV, но не нашел ее.
tfdv.generate_statistics_from_csv(
data_location,
column_names=None,
delimiter=',',
output_path=None,
stats_options=options.StatsOptions(),
pipeline_options=None
)
Options.StatsOptions() - это опции для генерации статистики, такие как sample_count, sample_rate и так далее...
Для меня не имеет смысла читать данные, имеющие дело с отсутствующими значениями, сохранять данные как Csv или TFRecord и после импорта в TFDV генерировать статистику.
0 ответов
В TFDV 0.13.0 вы можете использовать метод tfdv.generate_statistics_from_dataframe, чтобы генерировать статистику из кадра данных pandas. Если ваши данные помещаются в оперативную память, вы можете использовать метод pandas.read_csv, чтобы прочитать файл CSV (указав na_values), а затем использовать вышеуказанный метод для генерации статистики.