Работают ли регулярные выражения C++11 со строками UTF-8?

Если я хочу использовать регулярные выражения C++11 со строками Unicode, будут ли они работать с char* как UTF-8 или мне нужно преобразовать их в строку wchar_t*?

4 ответа

Решение

Вам нужно будет протестировать ваш компилятор и систему, которую вы используете, но теоретически она будет поддерживаться, если ваша система имеет локаль UTF-8. Следующий тест вернул мне истину на Clang/OS X.

bool test_unicode()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcdéfg"), pattern);

    std::locale::global(old);

    return result;
}

ПРИМЕЧАНИЕ: это было скомпилировано в файл в кодировке UTF-8.


На всякий случай я также использовал строку с явными шестнадцатеричными версиями. Это сработало также.

bool test_unicode2()
{
    std::locale old;
    std::locale::global(std::locale("en_US.UTF-8"));

    std::regex pattern("[[:alpha:]]+", std::regex_constants::extended);
    bool result = std::regex_match(std::string("abcd\xC3\xA9""fg"), pattern);

    std::locale::global(old);

    return result;
}

Обновить test_unicode() все еще работает для меня

$ file regex-test.cpp 
regex-test.cpp: UTF-8 Unicode c program text

$ g++ --version
Configured with: --prefix=/Applications/Xcode-8.2.1.app/Contents/Developer/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix
InstalledDir: /Applications/Xcode-8.2.1.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin

Регулярные выражения C++11 будут "работать" с UTF-8 просто отлично, для минимального определения "работа". Если вам нужна "полная" поддержка регулярных выражений Unicode для строк UTF-8, вам лучше воспользоваться библиотекой, которая поддерживает эту функцию, например, http://www.pcre.org/.

У меня есть сценарий использования, где мне нужно обрабатывать потенциально Unicode-строки при поиске декартовых координат, и этот пример показывает, как я обрабатываю это, как рекомендовано для std::wregex а также std::wstring, против потенциально Unicode символов для модуля синтаксического анализа.

static bool isCoordinate(std::wstring token)
{   
    std::wregex re(L"^(-?[[:digit:]]+)$");
    std::wsmatch match;
    return std::regex_search(token, match, re);
}

int wmain(int argc, wchar_t * argv[])
{
    // Testing against not a number nor unicode designation
    bool coord = ::isCoordinate(L"أَبْجَدِيَّة عَرَبِيَّة‎中文"); 

    if (!coord)
        return 0;
    return 1;
}

Да, они будут, это дизайн кодировки UTF-8. Операции с подстрокой должны работать правильно, если строка обрабатывается как массив байтов, а не как массив кодовых точек.

Смотрите FAQ № 18 здесь: http://www.utf8everywhere.org/ о том, как это достигается в дизайне этой кодировки.

Другие вопросы по тегам