Приемник для потока данных о действиях пользователей для построения онлайн-модели машинного обучения
Я пишу потребителя, который потребляет
(user activity data, (activityid, userid, timestamp, cta, duration)
из Google Pub/Sub, и я хочу создать для этого приемник, чтобы я мог обучать свою модель машинного обучения онлайн.
Поскольку этот приемник является источником, из которого я получу последнюю активность пользователя x (скажем, 100), чтобы обновить модель мл, если я могу хранить данные в пользовательской форме (скажем, в базе данных без sql, bigtable), извлечение будет простым, но операция обновления будет дорогостоящей, так как я буду добавлять значение каждый раз, когда получаю событие активности для пользователя. Какой тип приемника следует рассмотреть в этой ситуации?
1 ответ
Используя bigtable cell_version и настроив сборку мусора таким образом, чтобы сохранить последние 100 версий ячеек, а при повторном обучении/обновлении модели ML выполнить итерацию по историческим версиям ячеек.
Обновит окончательную пропускную способность чтения/записи и задержки