Как вы масштабируете обработку AI в Google Cloud Document?

Из https://cloud.google.com/document-ai/docs/process-forms я могу увидеть несколько примеров обработки отдельных файлов. Но в большинстве случаев у компаний есть ведра документов. В таком случае, как вы масштабируете обработку документа? Вы используете документ ai вместе со Spark? Или есть другой способ?

2 ответа

Вам нужно будет использовать пакетную обработку для одновременной обработки нескольких документов с помощью Document AI.

На этой странице облачной документации показано, как выполнять запросы пакетной обработки с помощью REST и клиентских библиотек.

https://cloud.google.com/document-ai/docs/send-request#batch-process

Эта лабораторная работа также иллюстрирует, как это сделать в Python с помощью OCR-процессора. https://codelabs.developers.google.com/codelabs/docai-ocr-python

Я смог найти только следующее: batch_process_documents обрабатывать много документов и возвращать асинхронный ответ, который будет сохранен в облачном хранилище.

Оттуда, я думаю, мы можем параметризовать нашу работу, добавив входной путь префикса корзины и распределив работу по нескольким машинам.

Все это можно организовать, например, с помощью Airflow.

Другие вопросы по тегам