Как загрузить документ вместо строки в Stanford's Stanza (StanfordNLP)?

Question

Как загрузить документ вместо строки в Stanford's Stanza (StanfordNLP)?

Я использую Stanford Stanza, но не могу найти никакой документации о том, как загрузить документ вместо строки.

Например, для строки это работает так:

nlp_pos = stanza.Pipeline('it',processors='tokenize,mwt,pos,lemma,depparse')
doc = nlp_pos("hello how are you")

Для документа я подумал, что это будет примерно так:

nlp_pos = stanza.Pipeline('it',processors='tokenize,mwt,pos,lemma,depparse')
filename = "example.txt"
with open(filename, 'r') as f:
doc = f.read()

Но не работает. Какая альтернатива?

0

python python-3.x nlp stanford-nlp stanford-stanza

Источник

user11988923 06 июн '20 в 15:57

2 ответа

Другие вопросы по тегам python python-3.x nlp stanford-nlp stanford-stanza

user8898244 09 июн '20 в 04:51 2020-06-09 04:51 · Answer 1 · 2020-06-09 04:51

Вот пример, слегка адаптированный из документации Stanza. Я создал дескриптор файла, который передал в doc = nlp(....). Внимание: я пишу не в исходный файл (Stanza_No_Tags.txt), а в новый файл (Stanza_Tokenized.txt). YMMV.

nlp = stanza.Pipeline(lang='zh', processors='tokenize')
Stanza_doc_open = open('Stanza_No_Tags.txt', 'r').read()

doc = nlp(Stanza_doc_open)
for i, sentence in doc.sentences:
    print(f'====== Sentence {i+1} =======', file=open('Stanza_Tokenized.txt', 'a'))

user1887435 14 авг '20 в 03:24 2020-08-14 03:24 · Answer 2 · 2020-08-14 03:24

Ответ @fpohlmann должен работать, но не закрывает дескриптор файла.

С минимальными изменениями в исходном фрагменте кода можно обработать файл

nlp_pos = stanza.Pipeline('it',processors='tokenize,mwt,pos,lemma,depparse')
filename = "example.txt"
with open(filename, 'r') as f:
    doc = nlp_pos(f.read())

И получить доступ к информации аннотации так же, как если бы вы docобъект из обработки строки. Фактически этот фрагмент просто считывает все содержимое этого файла в строку и передает ее в строфу.