Использование модели Attention-OCR (тензор / исследование) для извлечения конкретной информации из отсканированных документов

У меня есть несколько вопросов относительно модели Attention-OCR, описанной в этом документе: https://arxiv.org/pdf/1704.03549.pdf

Некоторый контекст

Моя цель - дать возможность Attention-OCR узнать, где искать и читать конкретную информацию в отсканированном документе. Он должен найти 10-значное число, которому (в большинстве случаев) предшествует описательная метка. Макет и тип документов различаются, поэтому я пришел к выводу, что без использования механизма внимания задача неразрешима из-за переменной позиции...

Мой первый вопрос: правильно ли я интерпретирую возможности модели? Это действительно может решить мою проблему? (1)

Прогресс на данный момент

Мне удалось запустить тренинг на моем собственном наборе данных с примерно 200 тыс. Изображений размером 736х736 (довольно большой, хотя качество не такое высокое, а уменьшение его размера сделало бы текст неузнаваемым). К сожалению, машина, которой я располагаю, имеет только один графический процессор (Nvidia Quadro M4000), и время является важным аспектом. Мне скоро понадобится подтверждение концепции, поэтому я решил, что могу попытаться перетянуть модель значительно меньшим набором данных, просто чтобы посмотреть, сможет ли она учиться.

Мне удалось перетянуть его с 5k изображений - он успешно предсказывает каждое изображение. Но у меня есть некоторые опасения относительно моей интерпретации этого результата. Кажется, что модель не запомнила, где искать нужную информацию, а просто запомнила все строки, независимо от того, написаны ли они где-то в документе или нет. Я имею в виду, что не очень удивительно, что модель запомнила все это, но мой вопрос, какой порог количества изображений должен быть превышен, чтобы модель начала обобщать и фактически изучать внимание? (2)

Пространственное внимание

Еще одна вещь, на которую я бы хотел обратить внимание - это механизм пространственного внимания. На ранней стадии реализации модели я предполагал, что механизм пространственного внимания, описанный в статье, уже включен и работает. Некоторое время назад я наткнулся на проблему в тензорном репозитории, созданном Александром Горбаном (одним из разработчиков Attention-OCR), где он заявил, что по умолчанию он отключен.

Поэтому я снова включил его и понял, что использование памяти стало невероятно высоким. Пространственные размеры тензора, включая закодированные координаты, изменились с

[размер партии, ширина, высота, особенности]

в

[batch_siz, ширина, высота, особенности + ширина + высота]

Это вызвало скачок потребления памяти в ~10 раз (с учетом величины изображений) -> не могу себе этого позволить! В результате мой третий вопрос: необходим ли механизм пространственного внимания для моей задачи? (3)

Бонусный вопрос

Можно ли визуализировать карту молчания и внимания с отключенным кодированием координат?

0 ответов

Другие вопросы по тегам