CORB - это инструмент Java, предназначенный для массовой обработки содержимого документов, хранящихся в MarkLogic.

github.com/marklogic/corb2 https://github.com/marklogic/corb2

CORB - это инструмент Java, предназначенный для массовой обработки содержимого документов, хранящихся в MarkLogic. Короче говоря, CORB обрабатывает список документов в базе данных и выполняет операции с этими документами. Операции CORB могут включать в себя создание отчета по всем документам, манипулирование отдельными документами или их комбинацией. CORB расшифровывается как обработка содержания контента в Bulk и является многопоточным рабочим инструментом в вашем распоряжении.

Стратегия при использовании CORB

CORB требует составления списка URI для работы, который может включать поиск для выбора соответствующих документов. При использовании MarkLogic всегда быстрее выполнять поиск по индексам в памяти базы данных, чем открывать документ, чтобы определить, есть ли совпадение. Поскольку первоначальный выбор документов представляет собой однопотоковый процесс, правильное использование CORB должно следовать этому факту при использовании модуля XQuery или JavaScript для создания списка. Селектор должен вернуться как можно быстрее и эффективнее, не открывая документы (фильтрация). Иногда для этого может потребоваться "создание более широкой сети" для документов, чем те, которые фактически необходимы для отчета или преобразования. Тем не менее, после того, как список был сгенерирован, документы, которые он содержит, могут обрабатываться одновременно столько потоков, сколько способен сервер. На этом этапе больше нет необходимости избегать открытия документа, и работа может быть выполнена по желанию.

Типичные случаи использования для CORB

Как уже упоминалось, CORB может использоваться для создания отчета по конкретному набору документов в базе данных. Отчет генерируется в текстовом виде с использованием или без использования ограничителя для создания формата значения с разделением запятыми (csv) или значения с разделением пробелами (psv) перед записью на диск.

Еще одним важным применением CORB является выполнение массовых преобразований данных. Документами можно манипулировать любым таким способом, как требуется, перед тем, как сохранить его обратно в базу данных. Часто желательно создать отчет об изменениях, внесенных в эти документы, что также возможно.

Хотя CORB является Java-программой, она использует модули XQuery или JavaScript для выполнения выбора данных и / или преобразования данных. Весь выбор и преобразование выполняется с помощью модулей XQuery или JavaScript, которые необходимо настроить для конкретной задачи.

Дальнейшее чтение


Связанные теги: marklogic