Обработка таблицы с использованием Google Cloud DLP API выполняется слишком медленно
Недавно я пытался использовать Google DLP API в Python 3 для классификации содержимого таблиц. Я сначала начал с тестирования API на небольших примерах, которые работали отлично. Однако, когда я попытался отправить таблицы большего размера (1000 строк x 18 столбцов, что меньше квоты в 50 000), запрос завершился сбоем. После уменьшения размера таблицы до 100 строк мне удалось ее запустить, однако один запрос из 100 строк занимает примерно 10 секунд. Большинство значений довольно короткие, вы найдете некоторые из столбцов ниже:
- Адрес
- Дата рождения
- Эл. адрес
- Имя
- Пол
- Место работы
- Фамилия
Кроме того, после дальнейших экспериментов я заметил, что если та же таблица предоставляется в виде строки в формате CSV (столбцы разделены ",", а строки - "\n"), время выполнения сокращается в 10 раз.
Это нормальное поведение? Или я, возможно, использую API, плохо ведущий к таким плохим выступлениям?
Я надеюсь, что мой вопрос достаточно ясен, Спасибо, что нашли время, чтобы прочитать это!:)
1 ответ
Это известная проблема, над которой работают. Некоторые детекторы (DOB и именные детекторы) работают медленнее, чем нужно для структурированных данных.