Извлечение личных атрибутов из текста
Я хотел бы извлечь личные атрибуты из текста, написанного человеком. например,
Я всегда интересовался профессиональным велоспортом. Будучи одинокой матерью, никогда не было легко найти достаточно времени, чтобы заниматься спортом профессионально. Лучшее, что я мог сделать, это отправиться в короткую поездку по красивым пляжам Мельбурна...
В идеале я хотел бы извлечь что-то вроде велосипедного: интерес, женщина: пол, спорт: интерес, Мельбурн: местоположение. Я думаю, что это называется извлечением именованных объектов, но я не уверен. Я попробовал Stanford Named Entity Recognizer, и он не дал мне того, чего я хотел. Самыми важными являются личные качества, такие как пол, возраст, интересы и т. Д., И большинство из них пропущено в разных выборках.
Есть ли какой-нибудь инструмент / библиотека (желательно на Python), которая может помочь мне сделать это? Я знаю о NLTK, но я не знаю, как / если я могу использовать это здесь.
1 ответ
Обычно Stanford Named Entity Tagger имеет некоторые классификаторы по умолчанию, он имеет только некоторые общие теги, такие как 'Name','Location','Organizations'
, Если вам нужна какая-то другая пометка, вы должны обучить свой собственный классификатор. Вы можете сослаться на это для создания нового классификатора. Я создал пользовательскую модель и работает нормально.