Описание тега named-entity-recognition

Named-entity recognition (NER) (also known as entity identification and entity extraction) is a subtask of information extraction that seeks to locate and classify atomic elements in text into predefined categories such as the names of persons, organizations, locations, expressions of times, quantities, monetary values, percentages, etc.
1 ответ

Определение определенных частей документа с использованием CRF

Моей целью является набор документов (в основном в финансовой сфере), нам необходимо определить его отдельные части, такие как название компании или тип документа и т. Д. Предполагается, что обучение будет проводиться на нескольких сотнях документов…
0 ответов

Распознавание именованных объектов NLTK с использованием корпуса Treebank

Я использую nltk для распознавания именованных сущностей. Функция ne_chunk по умолчанию использует ACE Corpus для разбиения на фрагменты и именованного объекта. chunked = ne_chunk (pos_tag (word_tokenize (text))) Я хотел бы знать, есть ли способ исп…
0 ответов

Создать график с использованием GraphX ​​в Java

Я пытаюсь простой пример, но я не могу использовать Graph API для создания графика с использованием следующего кода: SparkConf conf = new SparkConf().setAppName("GGenerate").setMaster("local").set("spark.cores.max", "10"); JavaSparkContext context =…
1 ответ

Обучение собственной модели и добавление новых сущностей с простором

Я пытался обучить модель тем же методом, который используется в #887, только для теста. У меня вопрос, какой формат тренировок лучше всего импортировать в пространстве. У меня есть текстовый файл со списком объектов, который требует новых объектов д…
11 апр '17 в 08:56
0 ответов

Как улучшить голландские NER chunkers в NLTK

Благодаря этому отличному ответу я получил хорошее начало, обучая свой собственный блок NE для голландского языка, используя NLTK и корпус Conll2002: NLTK с именем распознавания сущности на голландском языке. Используя эти подсказки, я также смог ле…
18 июл '13 в 09:34
3 ответа

Именованные объекты в инкапсулированном XML вызывают ошибки синтаксического анализа

У меня есть документы XML, которые содержат другие документы XML, инкапсулированные как CDATA, например: <mds> <md> <value> <![CDATA[<?xml version="1.0" encoding="UTF-8"?><record xmlns:xsi="http://www.w3.org/2001/XMLSch…
26 авг '14 в 11:01
1 ответ

Learning2Search (vowpal-wabbit) для NER дает странные результаты

Мы пытаемся использовать Learning2Search из vowpal-wabbit для NER. Мы используем набор данных ATIS. В ATIS имеется 127 объектов (включая категорию "Другие"). В учебном наборе 4978, а в тесте 893 предложения. Как бы то ни было, когда мы запускаем его…
05 апр '17 в 09:58
1 ответ

Как добавить функцию POS-тегов в инструмент распознавания имен OpenNLP

Я пытаюсь настроить OpenNLP NameFinder в проекте с функцией тега части речи. Я расширил свой класс пространственных объектов из класса FeatureGeneratorAdapter и переопределил следующий метод. К сожалению, этот метод принимает только необработанные т…
29 янв '14 в 23:38
0 ответов

Сравнение двух карт для расчета точности и отзыва для NER

Я пытаюсь вычислить точность и вспомнить для нашего распознавателя именованных сущностей, сравнивая наш вывод с выводом золотого набора. annotationMap - это карта набора золота, а myMap - это вывод моего NER. Чтобы дать вам представление, карты соде…
0 ответов

Запуск объекта ПРОДУКТ

Смотря на data/en_core_web_lg/en_core_web_lg-2.0.0/ner/movesих PRODUCT юридическое лицо. Согласно документу, PRODUCT представляет собой Предметы, транспортные средства, продукты питания и т. Д. (Не услуги.) Однако, если я попробую предложение 'machi…
03 авг '18 в 13:00
0 ответов

Извлечь список лиц, использующих Stanford NER Tagger в NLTK

Я хочу использовать Stanford NER Tagger, чтобы найти все имена в контенте. Этот пост объясняет, как это сделать, если у нас есть один набор имен в предложении или содержании. В основном это присоединяет слова с тегом "человек". Это не будет работать…
0 ответов

OpenNLP FeatureGenerator с действительными числовыми значениями

Я пытаюсь создать собственный генератор функций встраивания Word для использования в модели OpenNLP TokenNameFinder. Однако, если я правильно понимаю, в пользовательских функциях должен быть реализован класс AdaptiveFeatureGenerator, а подпись для г…
1 ответ

Ошибка распознавания именованного объекта Python: IndexError: список индексов выходит за пределы диапазона

Привет, я новичок в Python и попытался запустить скрипт ( https://github.com/detuvoldo/tagger), я заменил 2 строки в utils.py, потому что я использую Windows 10, и были некоторые проблемы, связанные с путями. models_path = u"\\\\?\\" + os.path.abspa…
0 ответов

Пометить NE для нескольких файлов, используя NER Stanford

Я хочу использовать Stanford NER для обозначения имени объекта в нескольких файлах. В документации сказано, что мы можем использовать опцию -testFiles со списком тестовых файлов, разделенных запятыми, но в моем случае это не работает, например: java…
04 июн '12 в 12:44
1 ответ

Пакет CleanNLP в фрейме данных R: метаданные?

Давайте предположим, что мой dataframe выглядит так: bio_text <- c("Georg Aemilius, eigentlich Georg Oemler, andere Namensvariationen „Aemylius“ und „Emilius“ (* 25. Juni 1517 in Mansfeld; † 22. Mai 1569 in Stolberg (Harz))...", "Johannes Aepinus…
17 июн '18 в 13:10
1 ответ

CoreNLP - NER и SUTime для распознавания только абсолютных дат

Я работаю с аннотатором распознавания именованных объектов CoreNLP. Моя проблема в том, что я хотел бы не признавать в качестве сущностей относительные даты. Моя цель - связать даты с событиями Некоторые интересные даты - 18 февраля 1997 года, 20 ию…
0 ответов

Оболочка NLTK для Weka для построения классификатора

Я строю классификатор именованных сущностей с nltk и я сосредоточен на поиске местоположения (любого типа, от стран до музеев, ресторанов или дорог). Я пытаюсь варьировать наборы функций и методы, которые я использую. На данный момент я использовал …
09 авг '13 в 13:08
0 ответов

Можно ли в SpaCy создавать и сохранять разные распознаватели именованных объектов в рамках одной и той же языковой модели?

В SpaCy я знаю, что можно обновить текущую модель NER и сохранить новое состояние языковой модели. Я также знаю, что можно создать новый Entity Recognizer с нуля. Допустим, я хочу создать группу разных распознавателей сущностей для разных вариантов …
18 окт '17 в 10:23
1 ответ

Тренировочная модель NER в Стэнфорде-НЛП

Я пытался поиграть со Стэнфордским Core NLP. Я хотел бы тренировать свою собственную модель NER. На форумах SO и на официальном сайте описывается использование файла свойств для этого. Как бы я сделал это через API? Properties props = new Properties…
1 ответ

Прилагательные, используемые с именованными сущностями

Я использовал приведенный ниже код Python для извлечения именованных сущностей, присутствующих в тексте. Теперь мне нужно получить прилагательные из тех предложений в тексте, где есть именованная сущность. то есть прилагательное, используемое с имен…