Docx не читает правильно акцентированное слово в питоне
У меня возникла проблема при попытке токенизации текста с использованием токенайзера Моисея. Токенайзер рассматривает акцентированное слово как "é" или "è" как пробелы и специальные символы при токенизации.
Шаги:
- - > Я прочитал из файла.docx
- > Токенизация текста с помощью токенайзера Моисея
from docx import Document tokenizer = MosesTokenizer(lang='FR') for i in file_docx.paragraphs: text = i.text tok = tokenizer.tokenize(text) print(text) print(tok)
Результаты: J'atteste que J'étais présent for Toute la Proédure.
['J', '\\'', 'atteste', 'que', 'j', '\\'', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']