Три части, связанные сущности, конкретно не обозначенные предложением

Как обучить аннотатора машинного обучения в Watson Knowledge Studio для определения информации об образовании, которая не является частью правильного предложения. Например, две точки пули. Как сформировать систему типов, которая будет идентифицировать сущности, не разбивая их на части? Я рассмотрел использование аннотаций отношений, но согласно официальной документации типы отношений должны аннотироваться, только если в предложении конкретно упоминается отношение. Например, "Мэри работает на IBM" - это пример типа отношения "занятые". (Мэри наняла IBM) Однако, их собственные видео показывают, что они комментируют "Форд F-150" с помощью отношения "изготовлено by", хотя в предложении не указывается это отношение. Например, "Форд F-150 ударил фонарный столб". (F-150 изготовлен Фордом)

Это текст, с которым я работаю:

  • BA, Городской университет Нью-Йорка, 1995
  • MA, Нью-Йоркский университет, 1997
  • Доктор философии, Колумбийский университет, 1999

Я мог бы комментировать их со степенями, школой и выпускными годами, но в итоге я вернусь к "1995", "1997", "1999", "BA", "Городской университет Нью-Йорка", "Колумбийский университет", "MA "," Нью-Йоркский университет ", "Ph.D"; беспорядок, с которым я не могу работать, потому что я больше не могу сказать, какая степень принадлежит, к какой школе принадлежит, какой год выпуска.

1 ответ

Что касается выражений, которые содержат две маркированные точки, есть возможность повысить точность определения предложений, поскольку они могут работать с WKS, используя Tokenizer на основе словаря. https://console.bluemix.net/docs/services/knowledge-studio/create-project.html

Я импортировал ваш пример текста в WKS и проверил результат токенизации, а затем выражение было разделено на 3 предложения. В этом случае вы можете аннотировать отношения между степенью, школой и годом выпуска.

Пример текста

Другие вопросы по тегам