Проверка TF: удаление неожиданных категориальных значений из функции в тестовых данных
Во всей доступной документации по TF-Data-Validation то, как вы справляетесь с аномалиями (здесь я конкретно имею в виду тип аномалии наличия новых, невидимых словарных / категориальных значений категориальной функции в тестовом наборе данных, которого нет в та же функция в наборе данных поезда) заключается в добавлении дополнительных значений в домен или уменьшении минимальной доли значений, которые поступают из этого учебного домена, как показано ниже. Я имею в виду код из этой записной книжки Colab здесь, в подразделе "Исправить аномалии оценки в схеме".
# Relax the minimum fraction of values that must come from the domain for feature company.
company = tfdv.get_feature(schema, 'company')
company.distribution_constraints.min_domain_mass = 0.9
# Add new value to the domain of feature payment_type.
payment_type_domain = tfdv.get_domain(schema, 'payment_type')
payment_type_domain.value.append('Prcard')
# Validate eval stats after updating the schema
updated_anomalies = tfdv.validate_statistics(eval_stats, schema)
tfdv.display_anomalies(updated_anomalies)
Но что, если вместо этого мы просто хотим отфильтровать эти новые категории, чтобы удалить их (или передать их обратно в набор обучающих данных), есть ли способ сделать это, используя синтаксис, подобный двум примерам выше?