Базовое обнаружение именованных объектов с приблизительным (нечетким) соответствием [закрыто]

Question

Базовое обнаружение именованных объектов с приблизительным (нечетким) соответствием [закрыто]

У меня есть большой список именованных объектов (скажем, 4 миллиона), для которых я хотел бы обнаружить соответствующее упоминание (диапазон) во входном тексте. Поскольку большинство упоминаний во входном тексте не будут точно соответствовать моему списку объектов, я хотел бы поддерживать приблизительное сопоставление.

Наивное решение - переместить скользящее окно во входном тексте и использовать токенизатор ngram уровня символов, чтобы приблизительно сопоставить скользящее окно со списком сущностей.

Я чувствую, что это обычный вариант использования. Вы знакомы с лучшим решением / инструментом для этой проблемы? Могут ли модули Spacy (например, EntityRecognizer) справиться с этим?

0

nlp spacy named-entity-recognition ner spacy-3

Источник

user3052875 21 фев '21 в 02:37

0 ответов

Другие вопросы по тегам nlp spacy named-entity-recognition ner spacy-3