Символы соответствия регулярного выражения Java вне Базовой многоязычной плоскости
Как я могу сопоставить символы (с целью их удаления) за пределами базовой многоязычной плоскости Юникода в Java?
2 ответа
Решение
Чтобы удалить все не-BMP символы, должно работать следующее:
String sanitizedString = inputString.replaceAll("[^\u0000-\uFFFF]", "");
Вы ищете определенных персонажей или всех персонажей за пределами BMP?
Если первое, вы можете использовать StringBuilder
построить строку, содержащую кодовые точки из более высоких плоскостей, и регулярное выражение будет работать, как ожидается:
String test = new StringBuilder().append("test").appendCodePoint(0x10300).append("test").toString();
Pattern regex = Pattern.compile(new StringBuilder().appendCodePoint(0x10300).toString());
Matcher matcher = regex.matcher(test);
matcher.find();
System.out.println(matcher.start());
Если вы хотите удалить все не-BMP символы из строки, то я бы использовал StringBuilder
непосредственно, а не регулярное выражение:
StringBuilder sb = new StringBuilder(test.length());
for (int ii = 0 ; ii < test.length() ; )
{
int codePoint = test.codePointAt(ii);
if (codePoint > 0xFFFF)
{
ii += Character.charCount(codePoint);
}
else
{
sb.appendCodePoint(codePoint);
ii++;
}
}