Хранение и чтение дерева блоков NLTK в файле
У меня есть объект дерева NLTK, где существует 6 фрагментов NP.
t1 = Tree('S', [('现在', 'T'), ('每', 'RZ'), ('次', 'QV'), ('打火', 'VN'), ('比较', 'D'), ('反感', 'V'), Tree('NP', [('悦动', 'NZ')]), Tree('NP', [('打火', 'VI'), ('时', 'TG'), ('比较', 'D'), ('嘈杂', 'A'), ('的', 'UDE1'), ('声音', 'N')]), (',', 'WD'), ('当然', 'D'), Tree('NP', [('比', 'P')]), Tree('NP', [('面包车', 'N')]), Tree('NP', [('打火', 'VI'), ('的', 'UDE1'), ('声音', 'N')]), Tree('NP', [('算是', 'V'), ('好听', 'A'), ('的', 'UDE1')]), ('!', 'WT')])
и я хочу иметь это t1
сохраняется на жестком диске, поэтому я записываю его в файл, как показано ниже.
>>> print(t1)
(S
现在/T
每/RZ
次/QV
打火/VN
比较/D
反感/V
(NP 悦动/NZ)
(NP 打火/VI 时/TG 比较/D 嘈杂/A 的/UDE1 声音/N)
,/WD
当然/D
(NP 比/P)
(NP 面包车/N)
(NP 打火/VI 的/UDE1 声音/N)
(NP 算是/V 好听/A 的/UDE1)
!/WT)
>>> file.write(t1.__str__())
имеющий t1
сохраненный в файле, я попытался перезагрузить его из файла с помощью BracketParseCorpusReader, но он не очень хорошо работал.
# nltk.corpus.__init__.py
bracket2 = LazyCorpusLoader(
'Bracket2', BracketParseCorpusReader, r'car/.*\.txt', encoding='utf8')
>>> bracket2.tagged_words() # Bracket2 is a instance of BracketParseCorpusReader
[('悦动/NZ', 'NP'), ('比/P', 'NP'), ('面包车/N', 'NP'), ...]
# failed to load words other than NP chunk
>>> bracket2.tagged_words()[0]
('悦动/NZ', 'NP')
# failed to load the first word "现在/T"
>>> bracket2.tagged_sents()[0]
[('悦动/NZ', 'NP'), ('比/P', 'NP'), ('面包车/N', 'NP')]
# failed to load the whole sentence
Читатель не может сказать слово и тег. Кажется, он дает некоторые подходящие параметры в отношении POS-сепаратора sent_tokenizer, но я не знаю, как его настроить.
- Какой NLTK Reader я должен использовать, чтобы читать
t1
выше? - В качестве альтернативы, есть ли способ сохранить объект дерева NLTK в файл и извлечь его в качестве исходной структуры?
1 ответ
Если я правильно понимаю, вы хотите сохранить дерево в файл, а затем снова "интерпретировать" это дерево, верно?
Использование tree.fromstring() может быть способом пойти:
import nltk
t = nltk.tree.Tree.fromstring("(S (NP (D the) (N dog)) (VP (V chased) (NP (D the) (N cat))))")
Он делает именно то, что предполагает название;).
Смотрите также http://www.nltk.org/_modules/nltk/tree.html
Надеюсь это поможет!