Базовое обнаружение именованных объектов с приблизительным (нечетким) соответствием [закрыто]
У меня есть большой список именованных объектов (скажем, 4 миллиона), для которых я хотел бы обнаружить соответствующее упоминание (диапазон) во входном тексте. Поскольку большинство упоминаний во входном тексте не будут точно соответствовать моему списку объектов, я хотел бы поддерживать приблизительное сопоставление.
Наивное решение - переместить скользящее окно во входном тексте и использовать токенизатор ngram уровня символов, чтобы приблизительно сопоставить скользящее окно со списком сущностей.
Я чувствую, что это обычный вариант использования. Вы знакомы с лучшим решением / инструментом для этой проблемы? Могут ли модули Spacy (например, EntityRecognizer) справиться с этим?