GATE ANNIE Gazetteer поисковое слово, содержащее двоеточие

Я хочу добавить новый список поиска в ANNIE Gazetteer. Некоторые из найденных слов содержат двоеточия; и функция в аннотациях (которые определены в новом mylookup.list) также содержат двоеточия, например:

mylookup.lst:
Star Wars:Episode I:url=http://example.com

Так что он найдет строку Star Wars:Episode I и аннотировать его urlзнак равноhttp://example.com

Я уже пытался "убежать" от двоеточий в mylookup.lst с помощью \, но это не сработало. Поскольку я также хочу использовать другие списки поиска по умолчанию (все они разделены двоеточиями), я не могу просто определить другой разделитель. Так, как я могу сказать газете поиск и аннотировать слова, которые содержат двоеточия?

1 ответ

Решение

Насколько я знаю, нет поддержки экранирования символов-разделителей в .lst файлы. Вы должны выбрать другой символ-разделитель. Я рекомендую символ табуляции: \t

В этом случае вы не можете использовать списки поиска по умолчанию (разделенные двоеточиями) в одном и том же PR PR. Но вы можете использовать два отдельных PR газетера в вашем конвейере. Один для списков поиска по умолчанию и второй для новых списков с другим разделителем.

Другие вопросы по тегам