Работа с несоответствиями кодирования / удаление скрытых символов с веб-страницы

Я удалил ссылку ниже и хочу обработать текст для дальнейшего анализа с использованием Python. Сегмент, о котором идет речь, - это "kwa vimada wake". Я хочу закончить с текстом, соответствующим тому, как он предназначен для отображения (и отображается в моем браузере), как "kwa vimada wake". Однако вокруг "vimada" есть скрытые символы, которые вы можете увидеть, если скопируете текст и вставите его в программу, такую ​​как Notepad++. Они путаются с моим токенизацией и обработкой НЛП (например, POS-тегер не распознает слово) и, похоже, не согласуются между моим сценарием и другими программами (после использования машинного обучения и загрузки результатов в мой сценарий, я получаю с vimadaÃ, который не может сравниться с vimada).

Кажется, что веб-страница использует кодировку UTF-8, а мои файлы сохраняются в кодировке UTF-8. Если бы я мог решить эту проблему и устранить любые странные / скрытые символы, у меня не было бы проблем с согласованностью между файлами или использованием ее в качестве входных данных для инструментов NLP.

Мой скрипт использует # -- кодирование: utf-8 --

Я бы предпочел работать с текстом, который я уже скачал, потому что изменения в безопасности сайта сделали его повторную проверку нецелесообразной. В моей базе данных он сохранен как "kwa âvimadaâ wake". Символы начала / конца отображаются в Блокноте ++ в виде трех символов каждый: [â][PAD][SOS] и [â][PAD][SGCI].

Я хочу удалить Unicode пробелы / скрытые символы и преобразовать все варианты знаков препинания, такие как апострофы, кавычки, дефисы и т. Д. В их эквиваленты ASCII. Я бы предпочел оставить акцентированные символы как есть. Однако не все акцентированные символы в настоящее время интерпретируются правильно. Некоторые кодируются неправильно, некоторые были изменены на веб-сайте, вероятно, из-за изменений в программном обеспечении и отображаются в виде HTML-кода, такого как é. Таким образом, простое удаление класса символов не очистит данные должным образом. Я использую Python 2.7.

http://www.jamiiforums.com/threads/rais-dhaifu-ccm-uchaguzi-2015.459292/

0 ответов

Другие вопросы по тегам