Какой самый точный детектор кодирования?

Question

Какой самый точный детектор кодирования?

После определенного опроса я обнаружил, что в мире Java есть несколько проектов по обнаружению кодирования, если getEncoding в InputStreamReader не работает:

Тем не менее, я действительно не знаю, что является лучшим среди всех. Может кто-нибудь с практическим опытом сказать мне, какой из них является лучшим в Java?

39

java character-encoding

Источник

user113037 21 сен '10 в 10:23

3 ответа

Другие вопросы по тегам java character-encoding

user3883957 05 фев '15 в 14:19 2015-02-05 14:19 · Answer 1 · 2015-02-05 14:19

Я проверил juniversalchardet и ICU4J на некоторых файлах CSV, и результаты противоречивы: у юниверсалчарде были лучшие результаты:

UTF-8: оба обнаружены.
Windows-1255: обнаружил juniversalchardet, когда на нем было достаточно букв иврита, ICU4J все еще думал, что это ISO-8859-1. С еще большим количеством букв на иврите ICU4J обнаружил его как ISO-8859-8, что является другой кодировкой на иврите (и поэтому текст был в порядке).
SHIFT_JIS (японский): обнаружен juniversalchardet, и ICU4J решил, что это ISO-8859-2.
ISO-8859-1: обнаружен ICU4J, не поддерживается juniversalchardet.

Поэтому следует подумать, с какими кодировками ему, скорее всего, придется иметь дело. В итоге я выбрал ICU4J.

Обратите внимание, что ICU4J все еще поддерживается.

Также обратите внимание, что вы можете захотеть использовать ICU4J, и в случае, если он возвращает ноль, потому что это не удалось, попробуйте использовать juniversalchardet. Или наоборот.

AutoDetectReader из Apache Tika делает именно это - сначала пытается использовать HtmlEncodingDetector, затем UniversalEncodingDetector(который основан на juniversalchardet), а затем пытается Icu4jEncodingDetector(основан на ICU4J).

user113037 01 окт '10 в 07:17 2010-10-01 07:17 · Answer 2 · 2010-10-01 07:17

Я нашел ответ онлайн:

http://fredeaker.blogspot.com/2007/01/character-encoding-detection.html

Здесь сказано что-то ценное:

Сила детектора кодировки символов заключается в том, сосредоточен ли он на статистическом анализе или на открытии прологов HTML META и XML. Если вы обрабатываете файлы HTML, которые имеют META, используйте cpdetector. В противном случае лучшим вариантом будет либо monq.stuff.EncodingDetector, либо com.sun.syndication.io.XmlReader.

Вот почему я сейчас использую cpdetector. Я буду обновлять пост с результатом этого.

user33622 23 сен '10 в 09:58 2010-09-23 09:58 · Answer 3 · 2010-09-23 09:58

Я лично использовал jchardet в нашем проекте (в то время juniversalchardet не был доступен), чтобы проверить, был ли поток UTF-8 или нет.

Интегрировать с нашим приложением было проще, чем с другим, и это дало отличные результаты.

1

Источник

user33622 23 сен '10 в 09:58