Свободный Помеченный Корпус для Распознавания Именных Сущностей

Я ищу бесплатный помеченный корпус для системы, в которой можно обучаться для распознавания именованных сущностей. Большинство из них, которые я нахожу (например, из "Нью-Йорк Таймс"), дороги и не открыты. Кто-нибудь может помочь?

3 ответа

Список корпусов можно найти по адресу http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

Корпус CoNLL 2003, включенный в этот список, является бесплатным и доступен по http://www.cnts.ua.ac.be/conll2003/ner/ (аннотации) и NIST (текст).

Python NLTK имеет доступ к nltk.corpus.conll2000 корпус. призвание conll2000.iob_words() возвращает список троек (слово, часть речи, IOB), где IOB - это тег в формате Inside-entity/Outside entity/Beginning-of-entity.

Всего около 250 тысяч слов в контексте новостного стиля.

dbPedia открыта и бесплатна

dbPedia построен из WikiPedia, и это очень большой корпус. Построить индекс Lucene на тройках с участием rdfs:label на всех свалках заголовков dbPedia.

Другие вопросы по тегам