Как обрабатывать ошибки кодирования в Python

Question

Как обрабатывать ошибки кодирования в Python

Я работаю над анализом большого количества (90000) CSV-файлов. Некоторые из файлов преобразуются в текст из PDF. Таким образом, они имеют много шума в виде странных персонажей. Например, Cachï¿. Некоторые из этих файлов были преобразованы онлайн, а некоторые - через pdfminer. Теперь в моей программе я анализирую файлы и удаляю стоп-слова.

cleanedRow = ' '.join([word for word in row[1].split() if word not in stopWrds])

Но из-за этих странных проблем с кодированием / декодированием моя программа не работает. Я не могу удалить все такие символы при поиске в 90000 файлах. Программа выдает следующую ошибку

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)

Есть ли элегантный способ игнорировать эти символы в Python? Буду признателен за любую помощь. Спасибо

0

python python-2.7 encoding nltk python-unicode

Источник

user4046516 23 фев '17 в 08:17

0 ответов

Другие вопросы по тегам python python-2.7 encoding nltk python-unicode