Попытка найти название определенного места из твитов
Я пытаюсь найти название определенного местоположения в твиттере и выполняю анализ настроений по попаданиям, полученным в результате поиска. Проблема, с которой я сталкиваюсь, заключается в том, что я ищу место, название которого, предположим, "Sammy's Tap and Grill", при поиске которого я не получаю никаких показов. Мне нужно искать что-то вроде "Sammys" или "Sammy's", чтобы получить несколько хитов. Альтернативно, когда я ищу "Эмпайр Стейт Билдинг", я не могу искать "Империю" в одиночку, она дает странные твиты, включая империи майя и чола. Так что здесь я должен искать с "Эмпайр Стейт Билдинг" или "Эмпайр Стейт". Так есть ли уловка НЛП, где я могу что-то сделать и найти наилучший возможный термин по полному названию места, которое получает наибольшее количество попаданий? Я просто смог найти решение, в котором я проверял, являются ли получаемые хиты существительными, потому что в некоторых местах есть такие названия, как "Отлично" и "Фантастика", и я не хотел, чтобы прилагательные появлялись. Так есть ли какой-нибудь НЛП способ решить мою проблему с поиском имени местоположения из твита?
1 ответ
Ваша проблема очень похожа на проблему распознавания именованных сущностей. Вы можете попробовать использовать стандартные именованные экстракторы сущностей или обучить свою собственную модель NER.
Там разные библиотеки для NER, вроде
Если вы хотите обучить свою собственную модельраспознавания именованных сущностей, проверьте следующие ссылки:
Удачи)