Bluemix Cloudant Инкрементальный поток данных

Я использую службы данных Bluemix для некоторых из наших больших задач обработки данных. Необработанные данные поступают в Cloudant, и мы отправляем их в DashDB, используя сервис хранилища с помощью in cloudant, и он отправляет данные в dashDB.

При запуске хранилища он переносит новые / обновленные строки в dashdb, но также просматривает столбец состояния хранилища и говорит: "5/5 ревизий складированы", что означает, что он также выталкивает и перезаписывает существующие строки.

Я хочу убедиться, что только измененные строки помещаются в dashdb. Я посмотрел на атрибут since_seq, но, глядя на документы, похоже, что это для репликации от облачного до облачного. Может кто-нибудь предложить способ сделать этот инкрементный пуш специально для dashdb.

Спасибо

1 ответ

Некоторые заметки здесь https://console.ng.bluemix.net/docs/services/Cloudant/guides/warehousing.html

Скопируйте вставку первой части раздела "Сохранение данных и структуры свежими"

Данные загружаются из Cloudant в dashDB с использованием процесса репликации. Это означает, что если ваши данные Cloudant обновляются или модифицируются каким-либо образом, репликация документов в dashDB должна выполняться снова, чтобы ваши аналитические задачи продолжали работать с использованием самой последней информации.

Как и в случае обычной репликации Cloudant, данные передаются только в одном направлении: для хранилища передача выполняется из Cloudant в dashDB. После первоначальной загрузки данных хранилище подписывается на изменения содержимого данных в базе данных Cloudant. Любые изменения реплицируются из источника Cloudant в цель dashDB. Это означает, что складирование является формой непрерывной репликации из Cloudant в dashDB.

Со временем ваша база данных Cloudant может также иметь структурные изменения. Это может включать добавление или удаление полей из документов JSON. Когда это происходит, схема, используемая хранилищем, может стать недействительной, что приведет к ошибкам, сообщаемым при репликации свежих данных из Cloudant в dashDB.

Для решения этой проблемы в облачном хранилище Cloudant имеется функция "повторного сканирования".

Другие вопросы по тегам