ICU: ucnv_convertEx - обнаружение ошибки кодирования на лету

Question

ICU: ucnv_convertEx - обнаружение ошибки кодирования на лету

Можно ли обнаружить ошибки кодирования с помощью ICU во время преобразования, или это необходимо предварительно или после проверки преобразования?

Учитывая инициализацию, где происходит преобразование из UTF8 в UTF32:

#include <stdio.h>
#include "unicode/ucnv.h"     /* C   Converter API    */

static void eval(UConverter* from, UConverter* to);

int main(int argc, char** argv) {
    UConverter*  from;
    UConverter*  to;
    UErrorCode   status;

    /* Initialize converter from UTF8 to Unicode _____________________________*/
    status = U_ZERO_ERROR;
    from   = ucnv_open("UTF-8", &status);
    if( ! from || ! U_SUCCESS(status) ) return 1; 
    status = U_ZERO_ERROR;
    to     = ucnv_open("UTF32", &status);
    if( ! to || ! U_SUCCESS(status) ) return 1; 
    /*________________________________________________________________________*/

    eval(from, to);
    return 0;
}

Затем, применяя конвекцию, используя ucnv_convertEx с помощью

static void eval(UConverter* from, UConverter* to) 
{
    UErrorCode  status = U_ZERO_ERROR;
    uint32_t    drain[1024];
    uint32_t*   drain_p = &drain[0];
    uint32_t*   p       = &drain[0];

    /* UTF8 sequence with error in third byte ________________________________*/
    const char  source[] = { "\xED\x8A\x0A\x0A" }; 
    const char* source_p = &source[0];

    ucnv_convertEx(to, from, (char**)&drain_p, (char*)&drain[1024],
                   &source_p, &source[5],
                   NULL, NULL, NULL, NULL, /* reset = */TRUE, /* flush = */TRUE,
                   &status);

    /* Print conversion result _______________________________________________*/
    printf("source_p: source + %i;\n", (int)(source_p - &source[0]));
    printf("status:   %s;\n", u_errorName(status));
    printf("drain:    (n=%i)[", (int)(drain_p - &drain[0]));
    for(p=&drain[0]; p != drain_p ; ++p) { printf("%06X ", (int)*p); }
    printf("]\n");
}

где "источник" содержит недопустимую последовательность кодовых единиц UTF8, функция должна как-то сообщать об ошибке. Сохранение вышеуказанных фрагментов в "test.c" и компиляция приведенного выше кода с

gcc test.c $(icu-config --ldflags) -o test

Выход из ./test является (удивительно):

source_p: source + 5;
status:   U_ZERO_ERROR;
drain:    (n=5)[00FEFF 00FFFD 00000A 00000A 000000 ]

Таким образом, нет явных признаков обнаруженной ошибки. Может ли обнаружение ошибок выполняться более элегантно, чем проверка содержимого вручную?

2

c++ c unicode character-encoding icu

Источник

user2940881 21 июл '18 в 22:25

1 ответ

Решение

Другие вопросы по тегам c++ c unicode character-encoding icu

user4184842 23 июл '18 в 03:06 2018-07-23 03:06 · Accepted Answer · 2018-07-23 03:06

Как подсказывает @Eljay в комментариях, вы можете использовать функцию обратного вызова с ошибкой. Вам даже не нужно писать свой собственный, так как встроенный UCNV_TO_U_CALLBACK_STOP будет делать то, что вы хотите (то есть, возвращать ошибки для любых плохих персонажей).

int TestIt()
{
  UConverter* utf8conv{};
  UConverter* utf32conv{};
  UErrorCode status{ U_ZERO_ERROR };

  utf8conv = ucnv_open("UTF8", &status);

  if (!U_SUCCESS(status))
  {
    return 1;
  }

  utf32conv = ucnv_open("UTF32", &status);

  if (!U_SUCCESS(status))
  {
    return 2;
  }

  const char source[] =  { "\xED\x8A\x0A\x0A" };
  uint32_t target[10]{ 0 };

  ucnv_setToUCallBack(utf8conv, UCNV_TO_U_CALLBACK_STOP, nullptr, 
    nullptr, nullptr, &status);

  if (!U_SUCCESS(status))
  {
    return 3;
  }

  auto sourcePtr = source;
  auto sourceEnd = source + ARRAYSIZE(source);
  auto targetPtr = target;
  auto targetEnd = reinterpret_cast<const char*>(target + ARRAYSIZE(target));

  ucnv_convertEx(utf32conv, utf8conv, reinterpret_cast<char**>(&targetPtr),
    targetEnd, &sourcePtr, sourceEnd, nullptr, nullptr, nullptr, nullptr, 
    TRUE, TRUE, &status);

  if (!U_SUCCESS(status))
  {
    return 4;
  }

  printf("Converted '%s' to '", source);
  for (auto start = target; start != targetPtr; start++)
  {
    printf("\\x%x", *start);
  }
  printf("'\r\n");

  return 0;
}

Это должно вернуться 4 для недопустимых кодовых точек Unicode и распечатайте значения UTF-32, если это было успешно. Вряд ли мы получим ошибку от ucnv_setToUCallBack, но мы проверяем на всякий случай. В приведенном выше примере мы передаем nullptr для предыдущего действия, так как нам все равно, что это было, и не нужно его сбрасывать.