Аннотатор для извлечения отношений

У меня есть набор URL-адресов в текстовом файле. Для каждого URL в этом текстовом файле я хочу пометить сущности и отношения в тексте, содержащемся в этом URL.

Мне известны теги сущностей, такие как Stanford NER, NLTK и GATE, которые могут выполнять маркировку сущностей. Тем не менее, я больше заинтересован в извлечении отношений.

Для того, чтобы извлечь отношения, я думаю о том, чтобы аннотировать текст, содержащийся в этих URL, для целей обучения. Для этого я не хочу делать ручную аннотацию. Я могу написать несколько регулярных выражений, чтобы извлечь отношения, которые я хочу, однако было бы трудно увеличить масштаб.

Есть ли инструмент, в котором я могу указать, что я хочу аннотировать?

Например:

"Роб работает директором организации ABC. Окончил Университет XYZ"

Здесь я хочу выделить отношения принадлежности, поэтому интуитивно я хотел бы аннотировать слова, которые описывают отношения, например, работу, диплом.

Изменить: под "набором URL-адресов в текстовом файле" я имею в виду, что у меня есть около 200 ссылок на определенные веб-страницы в этом текстовом файле, каждая из которых содержит некоторый текст. Я хочу проанализировать (аннотировать) этот текст.

1 ответ

Решение

В GATE нет PR, который будет соединять аргументы и создавать для вас экземпляры. Поэтому вы должны создавать экземпляры, которые имеют отношение к вашей проблеме.

Вы можете:

  • написать собственный PR
  • или написать немного JAPE с Java RHS

Вероятно, вы можете разделить ваш корпус на тренировочный и тестовый набор данных.

Вы можете использовать учебный курс GATE о Relation Extration, который содержит все, что вам нужно:

Другие вопросы по тегам