Создать почтовый корпус с NLTK

Я хочу построить почтовый корпус с NLTK. Так что я могу тренировать свою модель на ее основе.

До сих пор я ссылался на множество источников, но каждый из них просто объяснял, как читать ваш помеченный корпус и читать слова, предложения и т. Д. Ниже приведен фрагмент кода, который я пробовал:

from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()

Я хочу включить мой корпус в home/nltk_data/corpora/ папку, чтобы я мог импортировать созданный мной корпус. Пожалуйста, ведите меня.

1 ответ

Я получил рабочее решение для этого: Пожалуйста, обратитесь к ссылке для пошаговой процедуры.

Загрузите необходимые файлы для того же отсюда.

После того, как вы выполните команды из 1 файла, будет создан ваш файл с тегами.

После того, как файл pickle сгенерирован, вы можете проверить, нормально ли работает ваш tagger, выполнив следующий фрагмент кода:

import nltk.data
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle")
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])
Другие вопросы по тегам