Извлечение личных атрибутов из текста

Я хотел бы извлечь личные атрибуты из текста, написанного человеком. например,

Я всегда интересовался профессиональным велоспортом. Будучи одинокой матерью, никогда не было легко найти достаточно времени, чтобы заниматься спортом профессионально. Лучшее, что я мог сделать, это отправиться в короткую поездку по красивым пляжам Мельбурна...

В идеале я хотел бы извлечь что-то вроде велосипедного: интерес, женщина: пол, спорт: интерес, Мельбурн: местоположение. Я думаю, что это называется извлечением именованных объектов, но я не уверен. Я попробовал Stanford Named Entity Recognizer, и он не дал мне того, чего я хотел. Самыми важными являются личные качества, такие как пол, возраст, интересы и т. Д., И большинство из них пропущено в разных выборках.

Есть ли какой-нибудь инструмент / библиотека (желательно на Python), которая может помочь мне сделать это? Я знаю о NLTK, но я не знаю, как / если я могу использовать это здесь.

1 ответ

Обычно Stanford Named Entity Tagger имеет некоторые классификаторы по умолчанию, он имеет только некоторые общие теги, такие как 'Name','Location','Organizations', Если вам нужна какая-то другая пометка, вы должны обучить свой собственный классификатор. Вы можете сослаться на это для создания нового классификатора. Я создал пользовательскую модель и работает нормально.

Другие вопросы по тегам