Google Vertex AI AutoML - невозможно указать схему для наборов данных на основе CSV

Я создал табличные наборы данных в Vertex AI / Datasets на основе некоторых файлов CSV. Однако, когда я пытаюсь использовать эти наборы данных в AutoML для обучения и прогнозирования, невозможно указать типы данных полей. В документации я не мог найти, как делать "преобразования". Теоретически он поддерживает следующие типы:

  • Текст
  • Категоричный
  • Числовой
  • Отметка времени

В случае таблиц BigQuery получение типов данных довольно очевидно, поскольку это явно указано в схеме таблицы. Однако в случае с файлом CSV иногда неочевидно определить тип поля, и действительно, в моем случае иногда AutoML неправильно угадывает. Есть идеи, как явно указать типы данных для файлов CSV?

1 ответ

В Automl необходимо выполнить несколько шагов для обучения моделей данных:

Самый первый шаг - подготовить данные в соответствии с передовой практикой , обеспечив надлежащее (форматирование, поддержание оптимального количества строк, широкий или узкий формат, использование пробелов для разделения текста, соответствующее представление нулевых значений и т. Д. До и после импорта данных).

После импорта данных в таблицы Automl он автоматически обнаруживает и анализирует предоставленный файл CSV и предоставляет информацию о типах данных Категориальные, Числовые, Текстовые и Временные, как показано на изображении ниже. Преобразования типов данных происходят после импорта данных.

В вашем случае Automl неправильно угадывает, поэтому мы можем явно указать тип данных, щелкнув стрелку (которая появляется рядом с типом данных), как показано на изображении ниже. Пожалуйста, обратитесь к этому видео для демонстрации столов Automl.

Другие вопросы по тегам