Аннотатор для извлечения отношений
У меня есть набор URL-адресов в текстовом файле. Для каждого URL в этом текстовом файле я хочу пометить сущности и отношения в тексте, содержащемся в этом URL.
Мне известны теги сущностей, такие как Stanford NER, NLTK и GATE, которые могут выполнять маркировку сущностей. Тем не менее, я больше заинтересован в извлечении отношений.
Для того, чтобы извлечь отношения, я думаю о том, чтобы аннотировать текст, содержащийся в этих URL, для целей обучения. Для этого я не хочу делать ручную аннотацию. Я могу написать несколько регулярных выражений, чтобы извлечь отношения, которые я хочу, однако было бы трудно увеличить масштаб.
Есть ли инструмент, в котором я могу указать, что я хочу аннотировать?
Например:
"Роб работает директором организации ABC. Окончил Университет XYZ"
Здесь я хочу выделить отношения принадлежности, поэтому интуитивно я хотел бы аннотировать слова, которые описывают отношения, например, работу, диплом.
Изменить: под "набором URL-адресов в текстовом файле" я имею в виду, что у меня есть около 200 ссылок на определенные веб-страницы в этом текстовом файле, каждая из которых содержит некоторый текст. Я хочу проанализировать (аннотировать) этот текст.
1 ответ
В GATE нет PR, который будет соединять аргументы и создавать для вас экземпляры. Поэтому вы должны создавать экземпляры, которые имеют отношение к вашей проблеме.
Вы можете:
- написать собственный PR
- или написать немного JAPE с Java RHS
Вероятно, вы можете разделить ваш корпус на тренировочный и тестовый набор данных.
Вы можете использовать учебный курс GATE о Relation Extration, который содержит все, что вам нужно: