Обнаружение неизвестного символа в строке

Я использую библиотеку Tess Two для Android для чтения текста из растрового изображения. Я получаю следующее (то, что кажется) "─", чей альтернативный код ALT196.

Я использую регулярное выражение для поиска плохих персонажей. Этот неизвестный символ представляет знак минус в растровом изображении. Так что мне действительно нужно, чтобы он остался.

Как видно из приведенного ниже кода, мое регулярное выражение, которое очищает плохие символы, просит сохранить символ ALT196 и знак минус.

Я действительно хочу опознать этого персонажа. Одна очень важная подсказка заключается в том, что я использую обученные файлы данных на английском и Equ из библиотеки Tess Two.

Вот мой код, который очищает плохие символы

        s2 = s2.replaceAll("[^0-9,\\-,+,*,√,\\(,\\),\\[,\\],²,³,÷,\\.,\\|,\\/,\\,,a-z,A-Z,ƒ,×,~,≈,=,\\%,±,$,<,>,≤,≥,∞,Σ,π,≡,ⁿ,¹,°,∩,µ,⌠,⌡,:,{,},\\?,\\─,_,·]","");

обратите внимание, что s2 является возвращаемой строкой после того, как произошло "OCR". Посмотрите на картинку, которую я разместил. Последняя строка, которая является "s2", должна содержать этот неизвестный символ.

0 ответов

Другие вопросы по тегам