Google Vertex AI AutoML - невозможно указать схему для наборов данных на основе CSV
Я создал табличные наборы данных в Vertex AI / Datasets на основе некоторых файлов CSV. Однако, когда я пытаюсь использовать эти наборы данных в AutoML для обучения и прогнозирования, невозможно указать типы данных полей. В документации я не мог найти, как делать "преобразования". Теоретически он поддерживает следующие типы:
- Текст
- Категоричный
- Числовой
- Отметка времени
В случае таблиц BigQuery получение типов данных довольно очевидно, поскольку это явно указано в схеме таблицы. Однако в случае с файлом CSV иногда неочевидно определить тип поля, и действительно, в моем случае иногда AutoML неправильно угадывает. Есть идеи, как явно указать типы данных для файлов CSV?
1 ответ
В Automl необходимо выполнить несколько шагов для обучения моделей данных:
Самый первый шаг - подготовить данные в соответствии с передовой практикой , обеспечив надлежащее (форматирование, поддержание оптимального количества строк, широкий или узкий формат, использование пробелов для разделения текста, соответствующее представление нулевых значений и т. Д. До и после импорта данных).
После импорта данных в таблицы Automl он автоматически обнаруживает и анализирует предоставленный файл CSV и предоставляет информацию о типах данных Категориальные, Числовые, Текстовые и Временные, как показано на изображении ниже. Преобразования типов данных происходят после импорта данных.
В вашем случае Automl неправильно угадывает, поэтому мы можем явно указать тип данных, щелкнув стрелку (которая появляется рядом с типом данных), как показано на изображении ниже. Пожалуйста, обратитесь к этому видео для демонстрации столов Automl.