Свободный Помеченный Корпус для Распознавания Именных Сущностей
Я ищу бесплатный помеченный корпус для системы, в которой можно обучаться для распознавания именованных сущностей. Большинство из них, которые я нахожу (например, из "Нью-Йорк Таймс"), дороги и не открыты. Кто-нибудь может помочь?
3 ответа
Список корпусов можно найти по адресу http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
Корпус CoNLL 2003, включенный в этот список, является бесплатным и доступен по http://www.cnts.ua.ac.be/conll2003/ner/ (аннотации) и NIST (текст).
Python NLTK имеет доступ к nltk.corpus.conll2000
корпус. призвание conll2000.iob_words()
возвращает список троек (слово, часть речи, IOB), где IOB - это тег в формате Inside-entity/Outside entity/Beginning-of-entity.
Всего около 250 тысяч слов в контексте новостного стиля.
dbPedia открыта и бесплатна
dbPedia построен из WikiPedia, и это очень большой корпус. Построить индекс Lucene на тройках с участием rdfs:label
на всех свалках заголовков dbPedia.