Свободный Помеченный Корпус для Распознавания Именных Сущностей

Question

Свободный Помеченный Корпус для Распознавания Именных Сущностей

Я ищу бесплатный помеченный корпус для системы, в которой можно обучаться для распознавания именованных сущностей. Большинство из них, которые я нахожу (например, из "Нью-Йорк Таймс"), дороги и не открыты. Кто-нибудь может помочь?

9

nltk named-entity-recognition corpus tagged-corpus

Источник

user401658 25 июл '10 в 17:27

3 ответа

Другие вопросы по тегам nltk named-entity-recognition corpus tagged-corpus

user167425 12 июл '12 в 20:42 2012-07-12 20:42 · Answer 1 · 2012-07-12 20:42

Список корпусов можно найти по адресу http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

Корпус CoNLL 2003, включенный в этот список, является бесплатным и доступен по http://www.cnts.ua.ac.be/conll2003/ner/ (аннотации) и NIST (текст).

6

Источник

user167425 12 июл '12 в 20:42

user59499 20 мар '11 в 23:00 2011-03-20 23:00 · Answer 2 · 2011-03-20 23:00

Python NLTK имеет доступ к nltk.corpus.conll2000 корпус. призвание conll2000.iob_words() возвращает список троек (слово, часть речи, IOB), где IOB - это тег в формате Inside-entity/Outside entity/Beginning-of-entity.

Всего около 250 тысяч слов в контексте новостного стиля.

2

Источник

user59499 20 мар '11 в 23:00

user229106 25 июл '10 в 17:35 2010-07-25 17:35 · Answer 3 · 2010-07-25 17:35

dbPedia открыта и бесплатна

dbPedia построен из WikiPedia, и это очень большой корпус. Построить индекс Lucene на тройках с участием rdfs:label на всех свалках заголовков dbPedia.

1

Источник

user229106 25 июл '10 в 17:35