Как определить имена людей в тексте (Java)

Question

Как определить имена людей в тексте (Java)

У меня есть некоторый входной текст, который содержит одно или несколько имен людей. У меня нет словаря для этих имен. Какая библиотека Java может помочь мне определить имена из моего входного текста? Я просмотрел OpenNLP, но не нашел ни примера, ни руководства, ни хотя бы описания того, как его можно применить в моем коде. (Я видел Javadoc, но это довольно плохая документация для такого проекта.)

Я хочу найти имена из некоторого случайного текста. Если введенный текст "Мой друг Джо Смит пошел в магазин", то я хочу получить "Джо Смит". Я думаю, что должно быть несколько достаточно больших словарей на интеллектуальных движках, основанных на меньших словарях, которые могут понимать человеческие имена.

5

java nlp named-entity-recognition

Источник

user228185 09 дек '09 в 18:14

10 ответов

Другие вопросы по тегам java nlp named-entity-recognition

user8136 09 дек '09 в 18:20 2009-12-09 18:20 · Answer 1 · 2009-12-09 18:20

Я бы посмотрел в LingPipe. Проверьте это демо. Кстати, то, что вы пытаетесь сделать, называется " распознавание именованных сущностей". Это сложная проблема CS, чтобы получить право.

4

Источник

user8136 09 дек '09 в 18:20

user77308 11 дек '09 в 03:26 2009-12-11 03:26 · Answer 2 · 2009-12-11 03:26

OpenNLP имеет признание Named Entity. Ознакомьтесь с разделом " Нахождение английского имени" в документации. Но мой опыт подсказывает, что он идентифицирует сущности, но с ним не связано никаких тегов. (Если быть точным, я обнаружил, что теги присвоены неоднозначно.) Итак, если у вас есть предложение "Мой друг Джо Смит пошел в магазин Walmart", OpenNLP идентифицирует две названные сущности - "Джо Смит" и "Walmart". Я не мог получить тег "Джо Смит" как Персона и "Уолмарт" как Организацию.

По предложению Мэтта, вы можете попробовать LingPipe, хотя это коммерческий инструмент. Некоторые из альтернатив с открытым исходным кодом - MorphAdorner и Stanford NER.

user172211 09 дек '09 в 18:21 2009-12-09 18:21 · Answer 3 · 2009-12-09 18:21

Пока мы ждем подробностей о том, что вы делаете, вот пара ссылок на списки общих имен, по крайней мере, в демографических данных США:

Я думаю, что вам нужно (и / или больше) проверить их, поскольку ваша задача не похожа на то, что НЛП может сделать для вас без справочной информации.

user2369053 29 янв '14 в 14:21 2014-01-29 14:21 · Answer 4 · 2014-01-29 14:21

Я бы посоветовал вам использовать Stanford Name Entity Recognizer (NER). Stanford NER предоставляет множество классификаторов. Один из классификаторов, предоставленных Stanford NER, может идентифицировать имя, местоположение и организацию по заданному тексту.

Вы можете найти онлайн демо для NER Стэнфорда по этой ссылке http://nlp.stanford.edu:8080/ner/

user426377 20 май '11 в 05:24 2011-05-20 05:24 · Answer 5 · 2011-05-20 05:24

Вы можете проверить извлечение человека из свободного текста здесь http://code.google.com/p/graph-expression/wiki/Examples

1

Источник

user426377 20 май '11 в 05:24

user943727 14 сен '11 в 02:27 2011-09-14 02:27 · Answer 6 · 2011-09-14 02:27

OpenNlp имеет тип человека в своей модели NER. загрузите проект и модели с веб-сайта opennlp и получите модели с веб-сайта моделей (на странице Opennlp есть ссылка). Тогда иди сюда, http://www.asksunny.com/drupal/?q=node/4 это хороший пример того, как загрузить модели и выполнить NER. NER никогда не бывает идеальным, поэтому не разочаровывайтесь.

user1166469 18 июл '14 в 05:07 2014-07-18 05:07 · Answer 7 · 2014-07-18 05:07

Попробуйте Stanford NER, библиотеку для обработки текста

http://nlp.stanford.edu:8080/ner/

0

Источник

user1166469 18 июл '14 в 05:07

10 дек '09 в 17:15 2009-12-10 17:15 · Answer 8 · 2009-12-10 17:15

Вы также можете просмотреть проекты OpenCyc и WordNet как более интересные с семантической точки зрения.

0

Источник

10 дек '09 в 17:15

user788546 20 июл '12 в 10:52 2012-07-20 10:52 · Answer 9 · 2012-07-20 10:52

Эта проблема решается в распознавании именованных сущностей при обработке естественного языка, и в настоящее время считается немного сложной проблемой. Однако есть много инструментов, которые вы можете использовать для этого. Я использовал Стэнфордский NER для этого, и это хорошее программное обеспечение.

user1333610 08 фев '14 в 00:53 2014-02-08 00:53 · Answer 10 · 2014-02-08 00:53

Сервис OpenCalais может быть полезен. Попробуйте их инструмент представления по адресу: http://www.opencalais.com/documentation/calais-submission-tool

Этот инструмент распознает гораздо больше, чем просто имена людей.

0

Источник

user1333610 08 фев '14 в 00:53