Существует ли транслитерация из UTF-8 в CP1251, когда один символ заменяется несколькими символами?

Question

Существует ли транслитерация из UTF-8 в CP1251, когда один символ заменяется несколькими символами?

Я использую функцию iconv с опцией translit.

Существует ли транслитерация из UTF-8 в CP1251, когда один символ заменяется несколькими символами? Где я могу найти эту информацию? Я использую iconv.

1

c++ utf-8 character-encoding iconv windows-1251

Источник

user6760719 05 сен '16 в 13:34

2 ответа

Решение

Самый очевидный

$ echo 'ß' | iconv -f UTF-8 -t CP1251//TRANSLIT
ss

Кроме того, если вы используете немецкий язык, умлауты транслитерируются в соответствии с немецкими правилами (да, транслитерация зависит от локали).

$ export LC_ALL=de_DE.UTF-8
$ echo 'Füße' | iconv -f utf-8 -t CP1251//TRANSLIT
Fuesse

(Некоторые версии будут печатать F"usse вместо).

0

Источник

user775806 05 сен '16 в 15:31

Другие вопросы по тегам c++ utf-8 character-encoding iconv windows-1251

user567292 05 сен '16 в 15:00 2016-09-05 15:00 · Accepted Answer · 2016-09-05 15:00

Есть несколько, в зависимости от реализации и локали:

$ echo '℀⇒½' | iconv -f UTF8 -t CP1251//TRANSLIT
a/c=> 1/2

Это соответственно U+2100 АККАУНТ OF транслитерированный как a/c, U + 21D2 ДВОЙНАЯ СТРЕЛКА ПРАВА, транслитерированная как =>, U + 00BDВУЛГАРНАЯ ФРАКЦИЯ ОДНА ПОЛОВИНА транслитерируется как 1/2 (включая пробелы).

Я нашел их в исходном коде libc GNU, https://github.com/lattera/glibc/blob/master/locale/C-translit.h.in; различные реализации могут не транслитерировать эти символы одинаково, если вообще.