Что означает, что сравнения строк и символов в Swift не чувствительны к локали?
Я начал изучать язык Swift, и мне очень любопытно. Что означает, что сравнения строк и символов в Swift не чувствительны к локали? Означает ли это, что все символы хранятся в Swift как символы UTF-8?
3 ответа
(Все примеры кода обновлены для Swift 3).
Сравнение строк Swift с <
выполняет лексикографическое сравнение на основе так называемой "формы нормализации Unicode D" (которая может быть вычислена сdecomposedStringWithCanonicalMapping
)
Например, разложение
"ä" = U+00E4 = LATIN SMALL LETTER A WITH DIAERESIS
последовательность двух кодовых точек Unicode
U+0061,U+0308 = LATIN SMALL LETTER A + COMBINING DIAERESIS
В демонстрационных целях я написал небольшое расширение String, которое выгружает содержимое String в виде массива кодовых точек Unicode:
extension String {
var unicodeData : String {
return self.unicodeScalars.map {
String(format: "%04X", $0.value)
}.joined(separator: ",")
}
}
Теперь давайте возьмем несколько строк, отсортируем их <
:
let someStrings = ["ǟψ", "äψ", "ǟx", "äx"].sorted()
print(someStrings)
// ["a", "ã", "ă", "ä", "ǟ", "b"]
и сбросить кодовые точки Unicode каждой строки (в исходном и разложенном виде) в отсортированный массив:
for str in someStrings {
print("\(str) \(str.unicodeData) \(str.decomposedStringWithCanonicalMapping.unicodeData)")
}
Выход
äx 00E4,0078 0061,0308,0078
ǟx 01DF,0078 0061,0308,0304,0078
ǟψ 01DF,03C8 0061,0308,0304,03C8
äψ 00E4,03C8 0061,0308,03C8
хорошо показывает, что сравнение выполняется путем лексикографического упорядочения кодовых точек Unicode в разложенной форме.
Это также верно для строк из более чем одного символа, как показано в следующем примере. С
let someStrings = ["ǟψ", "äψ", "ǟx", "äx"].sorted()
выход вышеупомянутого цикла
äx 00E4,0078 0061,0308,0078
ǟx 01DF,0078 0061,0308,0304,0078
ǟψ 01DF,03C8 0061,0308,0304,03C8
äψ 00E4,03C8 0061,0308,03C8
Который означает, что
"äx" < "ǟx", but "äψ" > "ǟψ"
(что было по крайней мере неожиданно для меня).
Наконец, давайте сравним это с порядком, чувствительным к локали, например, шведским:
let locale = Locale(identifier: "sv") // svenska
var someStrings = ["ǟ", "ä", "ã", "a", "ă", "b"]
someStrings.sort {
$0.compare($1, locale: locale) == .orderedAscending
}
print(someStrings)
// ["a", "ă", "ã", "b", "ä", "ǟ"]
Как видите, результат отличается от Swift <
сортировка.
Изменение языкового стандарта может изменить алфавитный порядок, например, сравнение с учетом регистра может оказаться нечувствительным к регистру из-за языкового стандарта или, в более общем случае, алфавитный порядок двух строк различен.
Лексикографический порядок и порядок, зависящий от локали, могут различаться. Вы можете увидеть пример этого в этом вопросе: сортировка списка Scala, эквивалентного C#, без изменения порядка C#
В этом конкретном случае местный порядок размещения _
до 1
тогда как в лексикографическом порядке все наоборот.
Быстрое сравнение использует лексикографическое упорядочение.