Docx не читает правильно акцентированное слово в питоне

Question

Docx не читает правильно акцентированное слово в питоне

У меня возникла проблема при попытке токенизации текста с использованием токенайзера Моисея. Токенайзер рассматривает акцентированное слово как "é" или "è" как пробелы и специальные символы при токенизации.

Шаги:

- > Я прочитал из файла.docx

- > Токенизация текста с помощью токенайзера Моисея

from docx import Document
tokenizer = MosesTokenizer(lang='FR')

for i in file_docx.paragraphs:
    text = i.text
    tok = tokenizer.tokenize(text)
    print(text) 
    print(tok)

Результаты: J'atteste que J'étais présent for Toute la Proédure.

['J', '\\&apos;', 'atteste', 'que', 'j', '\\&apos;', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']

1

nltk docx tokenize python-docx french

Источник

user4708157 06 фев '18 в 10:16

0 ответов

Другие вопросы по тегам nltk docx tokenize python-docx french