Как обрабатывать ошибки кодирования в Python
Я работаю над анализом большого количества (90000) CSV-файлов. Некоторые из файлов преобразуются в текст из PDF. Таким образом, они имеют много шума в виде странных персонажей. Например, Cachï¿. Некоторые из этих файлов были преобразованы онлайн, а некоторые - через pdfminer. Теперь в моей программе я анализирую файлы и удаляю стоп-слова.
cleanedRow = ' '.join([word for word in row[1].split() if word not in stopWrds])
Но из-за этих странных проблем с кодированием / декодированием моя программа не работает. Я не могу удалить все такие символы при поиске в 90000 файлах. Программа выдает следующую ошибку
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 4: ordinal not in range(128)
Есть ли элегантный способ игнорировать эти символы в Python? Буду признателен за любую помощь. Спасибо