Наборы данных AWS IoT/ временных рядов
Мне нужен ваш мозг, чтобы понять, есть ли идеальная архитектура для хранения, обновления и оценки временных рядов данных из Интернета вещей.
Я бы не стал использовать AWS greengrass на своих устройствах (зависимость, устаревшие причины…)
Что вы думаете об этом стеке:
Шланг Kinesis
-> s3 (хранение только сырых данных по устройствам / год / месяц / день / час)
-> событие cloudwatch
-> лямбда (преобразование данных)
-> новый ковш S3
-> Sagemaker и ноутбуки для ML?
У меня следующие требования:
Получение данных Go/ месяц с устройств IoT (в настоящее время формат json, но мы можем его изменить)
Данные должны быть доступны для аналитики
Необработанные и преобразованные данные должны быть сохранены для использования IA
Можно хранить холодные данные (например, в леднике AWS через 3 месяца)
Необработанные данные должны быть преобразованы / отфильтрованы и сохранены в другом управляемом хранилище (s3?)
Модель ценообразования относительно проста, за вычетом платы за ГБ данных, сканируемых для запросов. Не знаю, как это точно рассчитать.
Другое мнение:
Как запрашивать эти преобразованные данные в контексте больших данных (формат json: эластичный? Dynamo? Инструмент, управляемый временными рядами?)
Как лучше использовать его в контексте машинного обучения после?
И как лучше фильтровать данные?(Лямбда, если микросервисы? Приклеить, если огромная партия?)
После всего этого мне действительно нужно ваше мнение о моих вариантах, описанных выше, и узнать, какой у вас опыт работы с этими различными облачными сервисами. Любые отзывы приветствуются.
Спасибо:)