Поиск графемы в Java
Поэтому я работаю над проектом, который включает поиск слова на разных языках. Я могу легко получить локаль языка, но я не знаю, как искать слово на другом языке. Таким образом, текст может быть на китайском языке, а слово для поиска может быть на английском языке. Например, в php у нас есть grapheme_stripos, я ищу похожую функциональность в Java. Я не нашел ничего, что делает поиск графемы в Java. Таким образом, один из способов может состоять в том, чтобы разбить строку и сохранить ее в байтовом массиве и выполнить поиск по ней, но нет ли в php чего-то лучшего, как grapheme_stripos, который решает задачу?
1 ответ
PHP использует UTF-8, поэтому поиск графемы не тривиален. Java использует UCS-2, где большинство символов (все символы BMP) являются одним Character
широкий. Некоторые CJK от BMP, хотя.
Посмотрите на функциональность, связанную с CodePoints java.lang.String
, Большую часть времени, indexOf
а также regionMatches
сделать правильную вещь.
Кроме того, взгляните на специальное решение для полнотекстового поиска.