Как мне использовать Conll 2003 корпус в python crfsuite
Я скачал Conll 2003 corpus ("eng.train"). Я хочу использовать его для извлечения сущности с помощью обучения python crfsuite. Но я не знаю, как загрузить этот файл для обучения.
Я нашел этот пример, но он не для английского.
train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
Также в будущем я хотел бы обучать новых лиц кроме POS или местоположения. Как я могу добавить их.
Также, пожалуйста, предложите, как обрабатывать несколько слов.
0 ответов
Вы можете использовать ConllCorpusReader.
Здесь общее импелементация:ConllCorpusReader('file path', 'file name', columntypes=['','',''])
Вот список типов столбцов, которые вы можете использовать: 'WORDS', 'POS', 'TREE', 'CHUNK', 'NE', 'SRL', 'IGNORE'
Пример:
from nltk.corpus.reader import ConllCorpusReader
train = ConllCorpusReader('CoNLL-2003', 'eng.train', ['words', 'pos', 'ignore', 'chunk'])
test = ConllCorpusReader('CoNLL-2003', 'eng.testa', ['words', 'pos', 'ignore', 'chunk'])