Ошибка кодирования UTF-8, но она уже закодирована

Я взял PDF и преобразовал его в текст, который я пытаюсь разбить на различные разделы с помощью "ФИГУРА". Когда я запускаю свой код в подмножестве всего текстового файла, он запускается, но когда я пытаюсь сделать весь текстовый файл, он не запускается. Есть идеи? это ошибка, которую я получаю, и мой код.

UnicodeDecodeError: кодек "ascii" не может декодировать байт 0x92 в позиции 851: порядковый номер не в диапазоне (128)

import re
import pandas as pd
from pandas import ExcelWriter

with open(r'\Desktop\Python\Python 2.7\InFile\dataIn.txt', 
'r') as myFile:
    data = myFile.read().replace('\n', '').decode('utf-8')
    file = re.split('FIGURE',data)


df = pd.DataFrame(file, columns=None)

writer = ExcelWriter('PythonExport.xlsx')
df.to_excel(writer,'Sheet1')
writer.save()

0 ответов

Другие вопросы по тегам