Как искать все символы CJK в vim?

Question

Как искать все символы CJK в vim?

Я могу искать CJK символ (например, 小) с использованием кодовой точки Unicode:

/\%u5c0f
/[\u5c0f]

Я не могу найти все символы CJK, используя [\u4E00-\u9FFF]потому что руководство vim говорит:

：help /[] NOTE: The other backslash codes mentioned above do not work inside []!

Это способ сделать работу?

8

regex vim unicode cjk

Источник

user348785 28 апр '12 в 14:01

5 ответов

Решение

Кажется, что диапазоны Vim так или иначе ограничены одним и тем же старшим байтом, потому что /[\u4E00-\u4eFF] работает отлично. Если вы не возражаете против беспорядка, попробуйте:

/[\u4e00-\u4eff\u4f00-\u4fff\u5000-\u50ff\u5100-\u51ff\u5200-\u52ff\u5300-\u53ff\u5400-\u54ff\u5500-\u55ff\u5600-\u56ff\u5700-\u57ff\u5800-\u58ff\u5900-\u59ff\u5a00-\u5aff\u5b00-\u5bff\u5c00-\u5cff\u5d00-\u5dff\u5e00-\u5eff\u5f00-\u5fff\u6000-\u60ff\u6100-\u61ff\u6200-\u62ff\u6300-\u63ff\u6400-\u64ff\u6500-\u65ff\u6600-\u66ff\u6700-\u67ff\u6800-\u68ff\u6900-\u69ff\u6a00-\u6aff\u6b00-\u6bff\u6c00-\u6cff\u6d00-\u6dff\u6e00-\u6eff\u6f00-\u6fff\u7000-\u70ff\u7100-\u71ff\u7200-\u72ff\u7300-\u73ff\u7400-\u74ff\u7500-\u75ff\u7600-\u76ff\u7700-\u77ff\u7800-\u78ff\u7900-\u79ff\u7a00-\u7aff\u7b00-\u7bff\u7c00-\u7cff\u7d00-\u7dff\u7e00-\u7eff\u7f00-\u7fff\u8000-\u80ff\u8100-\u81ff\u8200-\u82ff\u8300-\u83ff\u8400-\u84ff\u8500-\u85ff\u8600-\u86ff\u8700-\u87ff\u8800-\u88ff\u8900-\u89ff\u8a00-\u8aff\u8b00-\u8bff\u8c00-\u8cff\u8d00-\u8dff\u8e00-\u8eff\u8f00-\u8fff\u9000-\u90ff\u9100-\u91ff\u9200-\u92ff\u9300-\u93ff\u9400-\u94ff\u9500-\u95ff\u9600-\u96ff\u9700-\u97ff\u9800-\u98ff\u9900-\u99ff\u9a00-\u9aff\u9b00-\u9bff\u9c00-\u9cff\u9d00-\u9dff\u9e00-\u9eff\u9f00-\u9fff]

4

Источник

user936986 28 апр '12 в 14:30

Я немного поигрался с этим, и в vim следующее, кажется, находит все символы кандзи в моем тексте кандзи / пиньинь / английский:

[^!-~0-9 aāáǎăàeēéěèiīíǐĭìoōóǒŏòuūúǔùǖǘǚǜ]

3

Источник

user4642457 06 мар '15 в 20:29

В некоторых простых случаях я использую это для поиска китайских символов. Это также соответствует японским, русским символам и так далее.

[^\x00-\xff]

2

Источник

user6687185 07 авг '16 в 04:34

Я не понимаю "той же самой проблемы старшего байта", но кажется, что она неприменима (по крайней мере, для меня, VIM 7.4), когда вы фактически вводите символ для построения диапазонов.

Я обычно ищу от U+3400(㐀) до U+9FCC(鿌), чтобы захватить китайские иероглифы в японских текстах.

U+3400(㐀) - начало "CJK Unified Ideographs Extension A"
U + 4DC0 - U + 4DFF "Символы гексаграммы Пекина" находятся между ними, но не исключены для простоты.
U+9FCC(鿌) - это конец "Объединенных идеографов CJK"

Обратите внимание, что японская письменность использует "々" как символ повторения кандзи, который не является частью этого блока. Вы можете найти его в блоке "Японские символы и пунктуация".

/[㐀-鿌]

(Почти?) Полный набор китайских иероглифов с расширениями

/[㐀-鿌豈-龎-]

Этот диапазон включает в себя:

CJK Унифицированное расширение иероглифов A
Символы гексаграммы Yijing (не должны быть частью этого)
CJK Unified Ideographs (основная часть)
Идеографы совместимости CJK
CJK Unified Ideographs Extension B,
CJK Unified Ideographs Extension C,
CJK Unified Ideographs Extension D,
Дополнение к идеографам CJK

Бонус для людей, работающих над контентом на японском языке:

Хирагана идет от U+3041 до U+3096

/[ぁ-ゟ]

Катакана

/[゠-ヿ]

Кандзи радикалы

/[⺀-⿕]

Японские символы и пунктуация.

Обратите внимание, что этот диапазон также включает в себя rep (повторение последнего кандзи) и ab (сокращение от shime「しめ」). Возможно, вы захотите добавить их в свой диапазон, чтобы найти слова.

[　-〿]

Разные японские символы и символы

/[ㇰ-ㇿ㈠-㉃㊀-㍿]

Буквенно-цифровая и пунктуация (полная ширина)

[！-～]

источники:

http://www.fileformat.info/info/unicode/char/9fcc/index.htm http://www.localizingjapan.com/blog/2012/01/20/regular-expressions-for-japanese-text/comment-page-1/

2

Источник

user1494248 19 май '15 в 19:56

Другие вопросы по тегам regex vim unicode cjk

user471272 29 апр '12 в 14:36 2012-04-29 14:36 · Accepted Answer · 2012-04-29 14:36

На самом деле Vim не может сделать это сам по себе, поскольку у вас нет доступа к таким свойствам Юникода, как \p{Han},

Начиная с Unicode v6.0, диапазон кодовых точек для символов в сценарии Han:

2E80-2E99 2E9B-2EF3 2F00-2FD5 3005-3005 3007-3007 3021-3029 3038-303B 3400-4DB5 4E00-9FCB F900-FA2D FA30-FA6D FA70-FAD9 20000-2A6D6 2A700-2B734 2B740-2B81D 2F800-2FA1D

Принимая во внимание, что с Unicode v6.1 диапазон кодов Han был изменен на:

2E80-2E99 2E9B-2EF3 2F00-2FD5 3005-3005 3007-3007 3021-3029 3038-303B 3400-4DB5 4E00-9FCC F900-FA6D FA70-FAD9 20000-2A6D6 2A700-2B734 2B740-2B81D 2F800-2FA1D

Мне также кажется, что Vim испытывает трудности с выражением астральных кодовых точек, которые необходимы для правильной работы. Например, используя гибкий \x{HHHHHH} нотации из Java 7 или Perl, вы бы имели:

[\x{2E80}-\x{2E99}\x{2E9B}-\x{2EF3}\x{2F00}-\x{2FD5}\x{3005}-\x{3005}\x{3007}-\x{3007}\x{3021}-\x{3029}\x{3038}-\x{303B}\x{3400}-\x{4DB5}\x{4E00}-\x{9FCC}\x{F900}-\x{FA6D}\x{FA70}-\x{FAD9}\x{20000}-\x{2A6D6}\x{2A700}-\x{2B734}\x{2B740}-\x{2B81D}\x{2F800}-\x{2FA1D}]

Обратите внимание, что последняя часть диапазона \x{2F800}-\x{2FA1D}, что находится за пределами БМП. Но то, что вам действительно нужно, это \p{Han} (имея в виду, \p{Script=Han}). Это еще раз показывает, что диалекты регулярных выражений, которые не поддерживают хотя бы уровень 1 UTS#18: базовая поддержка Unicode, не подходят для работы с Unicode. Регулярные выражения Vim не подходят для базовой работы с Unicode.

ИЗМЕНЕНО ДЛЯ ДОБАВЛЕНИЯ

Вот программа, которая выводит диапазоны кодовых точек, которые применяются к любому данному сценарию Unicode.

#!/usr/bin/env perl
#
# uniscrange - given a Unicode script name, print out the ranges of code 
#              points that apply.
# Tom Christiansen <tchrist@perl.com>

use strict;
use warnings;

use Unicode::UCD qw(charscript);

for my $arg (@ARGV) {
    print "$arg: " if @ARGV > 1;
    dump_range($arg);
}

sub dump_range {
    my($scriptname) = @_;

    my $alist = charscript($scriptname);
    unless ($alist) {
        warn "Unknown script '$scriptname'\n";
        return;
    }

    for my $aref (@$alist) {
        my($start, $stop, $name) = @$aref;
        die "got $name, not $scriptname\n" unless $name eq $scriptname;
        printf "%04X-%04X ", $start, $stop;
    }
    print "\n";

}

Его ответы зависят от того, с какой версией Perl - и, следовательно, с какой версией Unicode - вы ее запускаете.

$ perl5.8.8 ~/uniscrange Latin Greek
Latin: 0041-005A 0061-007A 00AA-00AA 00BA-00BA 00C0-00D6 00D8-00F6 00F8-01BA 01BB-01BB 01BC-01BF 01C0-01C3 01C4-0241 0250-02AF 02B0-02B8 02E0-02E4 1D00-1D25 1D2C-1D5C 1D62-1D65 1D6B-1D77 1D79-1D9A 1D9B-1DBF 1E00-1E9B 1EA0-1EF9 2071-2071 207F-207F 2090-2094 212A-212B FB00-FB06 FF21-FF3A FF41-FF5A 
Greek: 0374-0375 037A-037A 0384-0385 0386-0386 0388-038A 038C-038C 038E-03A1 03A3-03CE 03D0-03E1 03F0-03F5 03F6-03F6 03F7-03FF 1D26-1D2A 1D5D-1D61 1D66-1D6A 1F00-1F15 1F18-1F1D 1F20-1F45 1F48-1F4D 1F50-1F57 1F59-1F59 1F5B-1F5B 1F5D-1F5D 1F5F-1F7D 1F80-1FB4 1FB6-1FBC 1FBD-1FBD 1FBE-1FBE 1FBF-1FC1 1FC2-1FC4 1FC6-1FCC 1FCD-1FCF 1FD0-1FD3 1FD6-1FDB 1FDD-1FDF 1FE0-1FEC 1FED-1FEF 1FF2-1FF4 1FF6-1FFC 1FFD-1FFE 2126-2126 10140-10174 10175-10178 10179-10189 1018A-1018A 1D200-1D241 1D242-1D244 1D245-1D245

$ perl5.10.0 ~/uniscrange Latin Greek
Latin: 0041-005A 0061-007A 00AA-00AA 00BA-00BA 00C0-00D6 00D8-00F6 00F8-01BA 01BB-01BB 01BC-01BF 01C0-01C3 01C4-0293 0294-0294 0295-02AF 02B0-02B8 02E0-02E4 1D00-1D25 1D2C-1D5C 1D62-1D65 1D6B-1D77 1D79-1D9A 1D9B-1DBE 1E00-1E9B 1EA0-1EF9 2071-2071 207F-207F 2090-2094 212A-212B 2132-2132 214E-214E 2184-2184 2C60-2C6C 2C74-2C77 FB00-FB06 FF21-FF3A FF41-FF5A 
Greek: 0374-0375 037A-037A 037B-037D 0384-0385 0386-0386 0388-038A 038C-038C 038E-03A1 03A3-03CE 03D0-03E1 03F0-03F5 03F6-03F6 03F7-03FF 1D26-1D2A 1D5D-1D61 1D66-1D6A 1DBF-1DBF 1F00-1F15 1F18-1F1D 1F20-1F45 1F48-1F4D 1F50-1F57 1F59-1F59 1F5B-1F5B 1F5D-1F5D 1F5F-1F7D 1F80-1FB4 1FB6-1FBC 1FBD-1FBD 1FBE-1FBE 1FBF-1FC1 1FC2-1FC4 1FC6-1FCC 1FCD-1FCF 1FD0-1FD3 1FD6-1FDB 1FDD-1FDF 1FE0-1FEC 1FED-1FEF 1FF2-1FF4 1FF6-1FFC 1FFD-1FFE 2126-2126 10140-10174 10175-10178 10179-10189 1018A-1018A 1D200-1D241 1D242-1D244 1D245-1D245

Вы можете использовать corelist -a Unicode Команда, чтобы увидеть, какая версия Unicode идет с какой версией Perl. Здесь выбран выход:

$ corelist -a Unicode
  v5.8.8     4.1.0     
  v5.10.0    5.0.0     
  v5.12.2    5.2.0     
  v5.14.0    6.0.0     
  v5.16.0    6.1.0