Docx не читает правильно акцентированное слово в питоне

У меня возникла проблема при попытке токенизации текста с использованием токенайзера Моисея. Токенайзер рассматривает акцентированное слово как "é" или "è" как пробелы и специальные символы при токенизации.

Шаги:

  1. - > Я прочитал из файла.docx
  2. - > Токенизация текста с помощью токенайзера Моисея

    from docx import Document
    tokenizer = MosesTokenizer(lang='FR')
    
    for i in file_docx.paragraphs:
        text = i.text
        tok = tokenizer.tokenize(text)
        print(text) 
        print(tok)
    

Результаты: J'atteste que J'étais présent for Toute la Proédure.

['J', '\\'', 'atteste', 'que', 'j', '\\'', 'e', '́', 'tais', 'pre', '́', 'sent', 'pour', 'toute', 'la', 'proce', '́', 'dure', '.']

0 ответов

Другие вопросы по тегам