Наборы данных AWS IoT/ временных рядов

Мне нужен ваш мозг, чтобы понять, есть ли идеальная архитектура для хранения, обновления и оценки временных рядов данных из Интернета вещей.

Я бы не стал использовать AWS greengrass на своих устройствах (зависимость, устаревшие причины…)

Что вы думаете об этом стеке:

Шланг Kinesis

-> s3 (хранение только сырых данных по устройствам / год / месяц / день / час)

-> событие cloudwatch

-> лямбда (преобразование данных)

-> новый ковш S3

-> Sagemaker и ноутбуки для ML?

У меня следующие требования:

Получение данных Go/ месяц с устройств IoT (в настоящее время формат json, но мы можем его изменить)

Данные должны быть доступны для аналитики

Необработанные и преобразованные данные должны быть сохранены для использования IA

Можно хранить холодные данные (например, в леднике AWS через 3 месяца)

Необработанные данные должны быть преобразованы / отфильтрованы и сохранены в другом управляемом хранилище (s3?)

Модель ценообразования относительно проста, за вычетом платы за ГБ данных, сканируемых для запросов. Не знаю, как это точно рассчитать.

Другое мнение:

Как запрашивать эти преобразованные данные в контексте больших данных (формат json: эластичный? Dynamo? Инструмент, управляемый временными рядами?)

Как лучше использовать его в контексте машинного обучения после?

И как лучше фильтровать данные?(Лямбда, если микросервисы? Приклеить, если огромная партия?)

После всего этого мне действительно нужно ваше мнение о моих вариантах, описанных выше, и узнать, какой у вас опыт работы с этими различными облачными сервисами. Любые отзывы приветствуются.

Спасибо:)

0 ответов

Другие вопросы по тегам