GATE ANNIE Gazetteer поисковое слово, содержащее двоеточие
Я хочу добавить новый список поиска в ANNIE Gazetteer. Некоторые из найденных слов содержат двоеточия; и функция в аннотациях (которые определены в новом mylookup.list) также содержат двоеточия, например:
mylookup.lst:
Star Wars:Episode I:url=http://example.com
Так что он найдет строку Star Wars:Episode I
и аннотировать его url
знак равноhttp://example.com
Я уже пытался "убежать" от двоеточий в mylookup.lst с помощью \
, но это не сработало. Поскольку я также хочу использовать другие списки поиска по умолчанию (все они разделены двоеточиями), я не могу просто определить другой разделитель. Так, как я могу сказать газете поиск и аннотировать слова, которые содержат двоеточия?
1 ответ
Насколько я знаю, нет поддержки экранирования символов-разделителей в .lst
файлы. Вы должны выбрать другой символ-разделитель. Я рекомендую символ табуляции: \t
В этом случае вы не можете использовать списки поиска по умолчанию (разделенные двоеточиями) в одном и том же PR PR. Но вы можете использовать два отдельных PR газетера в вашем конвейере. Один для списков поиска по умолчанию и второй для новых списков с другим разделителем.