Что означает, что сравнения строк и символов в Swift не чувствительны к локали?

Я начал изучать язык Swift, и мне очень любопытно. Что означает, что сравнения строк и символов в Swift не чувствительны к локали? Означает ли это, что все символы хранятся в Swift как символы UTF-8?

3 ответа

Решение

(Все примеры кода обновлены для Swift 3).

Сравнение строк Swift с < выполняет лексикографическое сравнение на основе так называемой "формы нормализации Unicode D" (которая может быть вычислена сdecomposedStringWithCanonicalMapping)

Например, разложение

"ä" = U+00E4 = LATIN SMALL LETTER A WITH DIAERESIS

последовательность двух кодовых точек Unicode

U+0061,U+0308 = LATIN SMALL LETTER A + COMBINING DIAERESIS

В демонстрационных целях я написал небольшое расширение String, которое выгружает содержимое String в виде массива кодовых точек Unicode:

extension String {
    var unicodeData : String {
        return self.unicodeScalars.map {
            String(format: "%04X", $0.value)
            }.joined(separator: ",")
    }
}

Теперь давайте возьмем несколько строк, отсортируем их <:

let someStrings = ["ǟψ", "äψ", "ǟx", "äx"].sorted()
print(someStrings)
// ["a", "ã", "ă", "ä", "ǟ", "b"]

и сбросить кодовые точки Unicode каждой строки (в исходном и разложенном виде) в отсортированный массив:

for str in someStrings {
    print("\(str)  \(str.unicodeData)  \(str.decomposedStringWithCanonicalMapping.unicodeData)")
}

Выход

äx  00E4,0078  0061,0308,0078
ǟx  01DF,0078  0061,0308,0304,0078
ǟψ  01DF,03C8  0061,0308,0304,03C8
äψ  00E4,03C8  0061,0308,03C8

хорошо показывает, что сравнение выполняется путем лексикографического упорядочения кодовых точек Unicode в разложенной форме.

Это также верно для строк из более чем одного символа, как показано в следующем примере. С

let someStrings = ["ǟψ", "äψ", "ǟx", "äx"].sorted()

выход вышеупомянутого цикла

äx  00E4,0078  0061,0308,0078
ǟx  01DF,0078  0061,0308,0304,0078
ǟψ  01DF,03C8  0061,0308,0304,03C8
äψ  00E4,03C8  0061,0308,03C8

Который означает, что

"äx" < "ǟx", but "äψ" > "ǟψ"

(что было по крайней мере неожиданно для меня).

Наконец, давайте сравним это с порядком, чувствительным к локали, например, шведским:

let locale = Locale(identifier: "sv") // svenska
var someStrings = ["ǟ", "ä", "ã", "a", "ă", "b"]
someStrings.sort {
    $0.compare($1, locale: locale) == .orderedAscending
}

print(someStrings)
// ["a", "ă", "ã", "b", "ä", "ǟ"]

Как видите, результат отличается от Swift < сортировка.

Изменение языкового стандарта может изменить алфавитный порядок, например, сравнение с учетом регистра может оказаться нечувствительным к регистру из-за языкового стандарта или, в более общем случае, алфавитный порядок двух строк различен.

Лексикографический порядок и порядок, зависящий от локали, могут различаться. Вы можете увидеть пример этого в этом вопросе: сортировка списка Scala, эквивалентного C#, без изменения порядка C#

В этом конкретном случае местный порядок размещения _ до 1тогда как в лексикографическом порядке все наоборот.

Быстрое сравнение использует лексикографическое упорядочение.

Другие вопросы по тегам