Поиск графемы в Java

Поэтому я работаю над проектом, который включает поиск слова на разных языках. Я могу легко получить локаль языка, но я не знаю, как искать слово на другом языке. Таким образом, текст может быть на китайском языке, а слово для поиска может быть на английском языке. Например, в php у нас есть grapheme_stripos, я ищу похожую функциональность в Java. Я не нашел ничего, что делает поиск графемы в Java. Таким образом, один из способов может состоять в том, чтобы разбить строку и сохранить ее в байтовом массиве и выполнить поиск по ней, но нет ли в php чего-то лучшего, как grapheme_stripos, который решает задачу?

1 ответ

PHP использует UTF-8, поэтому поиск графемы не тривиален. Java использует UCS-2, где большинство символов (все символы BMP) являются одним Character широкий. Некоторые CJK от BMP, хотя.

Посмотрите на функциональность, связанную с CodePoints java.lang.String, Большую часть времени, indexOf а также regionMatches сделать правильную вещь.

Кроме того, взгляните на специальное решение для полнотекстового поиска.

Другие вопросы по тегам