Периодически создавайте источники данных и модели ML в Amazon Machine Learning

Я создал источник данных и обучил модели машинного обучения в Amazon Machine Learning. Данные находятся в S3, который используется для создания источника данных. Однако мое приложение добавляет новые данные в S3 каждую секунду, поэтому мне нужен способ, с помощью которого я могу генерировать источник данных и периодически обучать модель.

Есть ли способ, которым я могу достичь этого?

Любая помощь приветствуется.

1 ответ

Да. Вам нужно сделать несколько вещей:

  • убедитесь, что ваш источник данных указывает на префикс в s3: bucket/data/ скорее, чем bucket/data/data.csv
  • напишите скрипт, который вы регулярно запускаете для создания новой модели (к сожалению, вы не можете обновить модель) на основе этих данных. Вот пример сценария, который делает это с помощью boto: https://github.com/mooreds/amazonmachinelearning-anintroduction/blob/master/updatemodel/updatemodel.py
  • пометьте свою новую модель и убедитесь, что ваши клиенты находят модель для использования с помощью тегов
  • удалите свои старые модели (в основном, чтобы избежать путаницы)
Другие вопросы по тегам