Методы геотаггинга или гео-маркировки текстового контента

Какие есть хорошие алгоритмы для автоматической маркировки текста с указанием города / региона или происхождения? То есть, если блог о Нью-Йорке, как я могу сказать программно. Существуют ли пакеты / документы, которые утверждают, что делают это с какой-то степенью уверенности?

Я рассмотрел некоторые подходы, основанные на tfidf, правильные пересечения существительных, но пока что никаких впечатляющих успехов нет, и я был бы признателен за идеи!

Более общий вопрос касается присвоения текстов темам, учитывая некоторый список тем.

Простые / наивные подходы предпочтительнее байесовских, но я открыт.

2 ответа

Решение

Вы ищете систему распознавания именованных сущностей или короткий NER. Есть несколько хороших наборов инструментов, которые могут вам помочь. В частности, у LingPipe есть очень приличный учебник. CAGEclass, кажется, ориентирован на NER по географическим названиям мест, но я еще не использовал его.

Вот хорошая запись в блоге о трудностях NER с географическими названиями мест.

Если вы собираетесь использовать Java, я бы порекомендовал использовать классы NER LingPipe. У OpenNLP также есть некоторые, но у первого есть лучшая документация.

Если вы ищете теоретические знания, Chavez et al. (2005) создали интересный синтаксис и задокументировали его.

Скрытое семантическое картирование кажется потенциально подходящим. Это примерно так же наивно, как алгоритм вы можете найти.

Другие вопросы по тегам