Ошибка кодирования UTF-8, но она уже закодирована
Я взял PDF и преобразовал его в текст, который я пытаюсь разбить на различные разделы с помощью "ФИГУРА". Когда я запускаю свой код в подмножестве всего текстового файла, он запускается, но когда я пытаюсь сделать весь текстовый файл, он не запускается. Есть идеи? это ошибка, которую я получаю, и мой код.
UnicodeDecodeError: кодек "ascii" не может декодировать байт 0x92 в позиции 851: порядковый номер не в диапазоне (128)
import re
import pandas as pd
from pandas import ExcelWriter
with open(r'\Desktop\Python\Python 2.7\InFile\dataIn.txt',
'r') as myFile:
data = myFile.read().replace('\n', '').decode('utf-8')
file = re.split('FIGURE',data)
df = pd.DataFrame(file, columns=None)
writer = ExcelWriter('PythonExport.xlsx')
df.to_excel(writer,'Sheet1')
writer.save()