Обнаружение неизвестного символа в строке
Я использую библиотеку Tess Two для Android для чтения текста из растрового изображения. Я получаю следующее (то, что кажется) "─", чей альтернативный код ALT196.
Я использую регулярное выражение для поиска плохих персонажей. Этот неизвестный символ представляет знак минус в растровом изображении. Так что мне действительно нужно, чтобы он остался.
Как видно из приведенного ниже кода, мое регулярное выражение, которое очищает плохие символы, просит сохранить символ ALT196 и знак минус.
Я действительно хочу опознать этого персонажа. Одна очень важная подсказка заключается в том, что я использую обученные файлы данных на английском и Equ из библиотеки Tess Two.
Вот мой код, который очищает плохие символы
s2 = s2.replaceAll("[^0-9,\\-,+,*,√,\\(,\\),\\[,\\],²,³,÷,\\.,\\|,\\/,\\,,a-z,A-Z,ƒ,×,~,≈,=,\\%,±,$,<,>,≤,≥,∞,Σ,π,≡,ⁿ,¹,°,∩,µ,⌠,⌡,:,{,},\\?,\\─,_,·]","");
обратите внимание, что s2 является возвращаемой строкой после того, как произошло "OCR". Посмотрите на картинку, которую я разместил. Последняя строка, которая является "s2", должна содержать этот неизвестный символ.