Как найти код символа специального символа в моем текстовом редакторе?
При вставке текста из внешних источников в текстовый редактор (например, TextMate или Sublime Text 2) распространенной проблемой является то, что специальные символы также часто вставляются. Некоторые из этих символов отображаются нормально, но в зависимости от источника некоторые могут отображаться неправильно (обычно отображаются в виде знака вопроса с рамкой вокруг него).
Так что это на самом деле 2 вопроса:
Учитывая специальный символ (например, 'или ♥), могу ли я определить код символа UTF-8, используемый для отображения этого символа из моего текстового редактора, и / или преобразовать эти символы в их коды символов?
Для тех "сверхспециальных" символов, которые появляются как мусор, есть ли способ выяснить, какую кодировку использовали для отображения этого символа в исходном тексте, и можно ли эти символы каким-то образом преобразовать в UTF-8?
2 ответа
Мой любимый сайт для поиска персонажей - fileformat.info. У них есть отличный поиск символов Unicode, который включает в себя много полезной информации о каждом символе и его различных кодировках.
Если вы видите вопросительный знак в рамке, это означает, что вы вставили что-то, что не может быть интерпретировано, часто потому, что это не допустимый UTF-8 (не каждая последовательность байтов является допустимой UTF-8). Одна из возможностей заключается в том, что это UTF-16 с порядком байтов, которого ваш редактор не ожидает. Если вы можете получить полный исходный текст в файл, file
Команда часто является лучшим инструментом для определения кодировки.
На &;; я создал инструмент для поиска персонажей. Он индексирует все таблицы сущностей Unicode и HTML, а также дополняет хакерские словари и базу данных ключевых слов, которые я собрал, так что вы можете искать такие слова, как heart
, quot
, weather
, umlaut
, hash
, cloverleaf
и получить то, что вы хотите. Сосредоточив внимание на поиске, он избегает необходимости искать страницы Unicode, что может быть неприятно. Попробуйте.