Точное словарное распознавание именованных сущностей в Стэнфорде

У меня есть словарь именованных сущностей, извлеченный из Википедии. Я хочу использовать его как словарь NER. Я хотел знать, как я могу использовать Stanford-NER с этими моими данными. Я также скачал Lingpipe, хотя понятия не имею, как я могу его использовать. Буду признателен за все виды информации.

Спасибо за вашу помощь.

3 ответа

Решение

Вы можете использовать словарь (или основанное на регулярном выражении) именованное распознавание сущностей с Stanford CoreNLP. Смотрите аннотатор RegexNER. Для некоторых приложений мы запускаем это с довольно большими словарями сущностей. Тем не менее, для нас это, как правило, вторичный инструмент для использования статистических (на основе CRF) NER.

Вы можете использовать MER: http://labs.fc.ul.pt/mer/

минимальный распознаватель сущностей, разработанный в bash: https://github.com/lasigeBioTM/MER

в качестве входных данных требуется только лексикон (текстовый файл)

Stanford-NER основан на CRF, которые являются статистической моделью. Боюсь, он не поддерживает дополнительный словарь или лексику. Тем не менее, вы можете обучить новую модель в соответствии со своими задачами.

Другие вопросы по тегам