Можно ли использовать RNN / LSTM для нестандартного текстового распознавания текста?

Я читал о LSTM и RNN, даже CTC. Из того, что я понимаю, RNN используется для обозначения недостающего токена в последовательности (например, слова в предложении). Тем не менее, моя проблема заключается в чтении имен людей, написанных рукописным шрифтом. Многие имена не популярны и не могут быть найдены в языковой модели, поэтому, если RNN предсказывает только пропущенное слово, это не удастся, так как у меня нет полного набора возможных имен людей, верно?

1) Могу ли я использовать RNN для распознавания нестандартных слов? (например, редкие / непопулярные имена людей)

2) Если нет, есть ли другие альтернативы.? Или я должен использовать традиционный подход OCR (чтобы попытаться сегментировать, а затем классифицировать символы)?

1 ответ

Решение

Нейронные сети, построенные из CNN + RNN + CTC, работают на уровне персонажа. Они учатся предсказывать строки символов и не заботятся о словах или базовом языке. Конечно, вы можете интегрировать словарь и / или языковую модель в CTC-декодер, но это не обязательно. Таким образом, такие сети могут читать произвольные имена людей, просто посмотрев на символы. Для высокоуровневого введения в распознавание текста с такими моделями нейронной сети, см. https://towardsdatascience.com/2326a3487cd5

Еще одно дополнительное примечание: RNN используются для распространения информации по последовательности, например, чтобы выяснить, каким может быть неоднозначный символ в зависимости от его окружения.

Другие вопросы по тегам