Описание тега marklogic-corb
https://github.com/marklogic/corb2
CORB - это инструмент Java, разработанный для массовой обработки содержимого документов, хранящихся в MarkLogic. Короче говоря, CORB обрабатывает список документов в базе данных и выполняет операции с этими документами. Операции CORB могут включать создание отчета по всем документам, манипулирование отдельными документами или их комбинацию. CORB (сокращение от COntent Reprocessing на языке Bulk) - это многопоточный инструмент, который находится в вашем распоряжении.
Стратегия использования CORB
CORB требует создания списка URI для работы, что может включать поиск для выбора соответствующих документов. При использовании MarkLogic всегда быстрее выполнять поиск по индексам базы данных в памяти, чем открывать документ, чтобы определить, есть ли совпадение. Поскольку первоначальный выбор документов - это однопоточный процесс, правильное использование CORB должно учитывать этот факт при использовании модуля XQuery или JavaScript для создания списка. Селектор должен возвращаться как можно быстрее и эффективнее, не открывая документы (фильтрация). Иногда это может потребовать "использования более широкой сети" для документов, чем те, которые действительно необходимы для отчета или преобразования. Однако после того, как список был сгенерирован, с документами, которые он содержит, можно будет работать одновременно, используя столько потоков, сколько может сервер.На этом этапе больше нет необходимости избегать открытия документа, и работа может выполняться по желанию.
Типичные варианты использования CORB
Как уже упоминалось, CORB можно использовать для создания отчета по определенному набору документов в базе данных. Отчет создается в текстовом виде с использованием или без использования ограничителя для создания значений, разделенных запятыми (csv), или значений, разделенных вертикальной чертой (psv), перед записью на диск.
Еще одно важное применение CORB - выполнение массового преобразования данных. Документами можно манипулировать любым способом, прежде чем они будут сохранены обратно в базу данных. Часто желательно формировать отчет об изменениях, внесенных в эти документы, что тоже возможно.
Хотя CORB - это программа Java, она использует модули XQuery или JavaScript для выполнения выбора и / или преобразования данных. Весь выбор и преобразование выполняется с помощью модулей XQuery или JavaScript, которые необходимо настроить для конкретной задачи.