Создать почтовый корпус с NLTK
Я хочу построить почтовый корпус с NLTK. Так что я могу тренировать свою модель на ее основе.
До сих пор я ссылался на множество источников, но каждый из них просто объяснял, как читать ваш помеченный корпус и читать слова, предложения и т. Д. Ниже приведен фрагмент кода, который я пробовал:
from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()
Я хочу включить мой корпус в home/nltk_data/corpora/
папку, чтобы я мог импортировать созданный мной корпус. Пожалуйста, ведите меня.
1 ответ
Я получил рабочее решение для этого: Пожалуйста, обратитесь к ссылке для пошаговой процедуры.
Загрузите необходимые файлы для того же отсюда.
После того, как вы выполните команды из 1 файла, будет создан ваш файл с тегами.
После того, как файл pickle сгенерирован, вы можете проверить, нормально ли работает ваш tagger, выполнив следующий фрагмент кода:
import nltk.data
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle")
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])