Как правильно использовать WideCharToMultiByte

Question

Как правильно использовать WideCharToMultiByte

Я прочитал документацию по WideCharToMultiByte, но я застрял на этом параметре:

lpMultiByteStr
[out] Pointer to a buffer that receives the converted string.

Я не совсем уверен, как правильно инициализировать переменную и передать ее в функцию

80

c++ unicode character-encoding codepages

Источник

user23120 19 окт '08 в 03:33

4 ответа

Другие вопросы по тегам c++ unicode character-encoding codepages

user9042 22 окт '10 в 17:59 2010-10-22 17:59 · Answer 1 · 2010-10-22 17:59

Вот пара функций (на основе примера Брайана Бонди), которые используют WideCharToMultiByte и MultiByteToWideChar для преобразования между std::wstring и std::string с использованием utf8, чтобы не потерять какие-либо данные.

// Convert a wide Unicode string to an UTF8 string
std::string utf8_encode(const std::wstring &wstr)
{
    if( wstr.empty() ) return std::string();
    int size_needed = WideCharToMultiByte(CP_UTF8, 0, &wstr[0], (int)wstr.size(), NULL, 0, NULL, NULL);
    std::string strTo( size_needed, 0 );
    WideCharToMultiByte                  (CP_UTF8, 0, &wstr[0], (int)wstr.size(), &strTo[0], size_needed, NULL, NULL);
    return strTo;
}

// Convert an UTF8 string to a wide Unicode String
std::wstring utf8_decode(const std::string &str)
{
    if( str.empty() ) return std::wstring();
    int size_needed = MultiByteToWideChar(CP_UTF8, 0, &str[0], (int)str.size(), NULL, 0);
    std::wstring wstrTo( size_needed, 0 );
    MultiByteToWideChar                  (CP_UTF8, 0, &str[0], (int)str.size(), &wstrTo[0], size_needed);
    return wstrTo;
}

user12711 19 окт '08 в 19:52 2008-10-19 19:52 · Answer 2 · 2008-10-19 19:52

Разрабатывая ответ, предоставленный Брайаном Р. Бонди: Вот пример, который показывает, почему вы не можете просто изменить размер выходного буфера до количества широких символов в исходной строке:

#include <windows.h>
#include <stdio.h>
#include <wchar.h>
#include <string.h>

/* string consisting of several Asian characters */
wchar_t wcsString[] = L"\u9580\u961c\u9640\u963f\u963b\u9644";

int main() 
{

    size_t wcsChars = wcslen( wcsString);

    size_t sizeRequired = WideCharToMultiByte( 950, 0, wcsString, -1, 
                                               NULL, 0,  NULL, NULL);

    printf( "Wide chars in wcsString: %u\n", wcsChars);
    printf( "Bytes required for CP950 encoding (excluding NUL terminator): %u\n",
             sizeRequired-1);

    sizeRequired = WideCharToMultiByte( CP_UTF8, 0, wcsString, -1,
                                        NULL, 0,  NULL, NULL);
    printf( "Bytes required for UTF8 encoding (excluding NUL terminator): %u\n",
             sizeRequired-1);
}

И вывод:

Wide chars in wcsString: 6
Bytes required for CP950 encoding (excluding NUL terminator): 12
Bytes required for UTF8 encoding (excluding NUL terminator): 18

user3153 19 окт '08 в 03:41 2008-10-19 03:41 · Answer 3 · 2008-10-19 03:41

Вы используете параметр lpMultiByteStr [out], создавая новый массив символов. Затем вы передаете этот массив символов, чтобы заполнить его. Вам нужно только инициализировать длину строки + 1, чтобы после преобразования вы могли получить строку с нулевым символом в конце.

Вот несколько полезных вспомогательных функций, которые показывают использование всех параметров.

#include <string>

std::string wstrtostr(const std::wstring &wstr)
{
    // Convert a Unicode string to an ASCII string
    std::string strTo;
    char *szTo = new char[wstr.length() + 1];
    szTo[wstr.size()] = '\0';
    WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, szTo, (int)wstr.length(), NULL, NULL);
    strTo = szTo;
    delete[] szTo;
    return strTo;
}

std::wstring strtowstr(const std::string &str)
{
    // Convert an ASCII string to a Unicode String
    std::wstring wstrTo;
    wchar_t *wszTo = new wchar_t[str.length() + 1];
    wszTo[str.size()] = L'\0';
    MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, wszTo, (int)str.length());
    wstrTo = wszTo;
    delete[] wszTo;
    return wstrTo;
}

-

В любое время в документации, когда вы видите, что у него есть параметр, который является указателем на тип, и они говорят вам, что это переменная out, вы захотите создать этот тип, а затем передать указатель на него. Функция будет использовать этот указатель для заполнения вашей переменной.

Таким образом, вы можете понять это лучше:

//pX is an out parameter, it fills your variable with 10.
void fillXWith10(int *pX)
{
  *pX = 10;
}

int main(int argc, char ** argv)
{
  int X;
  fillXWith10(&X);
  return 0;
}

user3358499 07 апр '21 в 05:21 2021-04-07 05:21 · Answer 4 · 2021-04-07 05:21

Вот C реализация обоих WideCharToMultiByte а также MultiByteToWideChar. В обоих случаях я стараюсь прикрепить символ к концу буферов назначения.

MultiByteToWideChar не завершает выходную строку нулевым символом, если длина входной строки явно указана без завершающего нулевого символа.

А также

WideCharToMultiByte не завершает выходную строку нулевым символом, если длина входной строки явно указана без завершающего нулевого символа.

Даже если кто-то уточняет -1 и передает завершенную строку. Я все еще выделяю достаточно места для дополнительного null символ, потому что для моего варианта использования это не было проблемой.

      wchar_t* utf8_decode( const char* str, int nbytes ) {    
    int nchars = 0;
    if ( ( nchars = MultiByteToWideChar( CP_UTF8, 
        MB_ERR_INVALID_CHARS, str, nbytes, NULL, 0 ) ) == 0 ) {
        return NULL;
    }

    wchar_t* wstr = NULL;
    if ( !( wstr = malloc( ( ( size_t )nchars + 1 ) * sizeof( wchar_t ) ) ) ) {
        return NULL;
    }

    wstr[ nchars ] = L'\0';
    if ( MultiByteToWideChar( CP_UTF8, MB_ERR_INVALID_CHARS, 
        str, nbytes, wstr, ( size_t )nchars ) == 0 ) {
        free( wstr );
        return NULL;
    }
    return wstr;
} 


char* utf8_encode( const wchar_t* wstr, int nchars ) {
    int nbytes = 0;
    if ( ( nbytes = WideCharToMultiByte( CP_UTF8, WC_ERR_INVALID_CHARS, 
        wstr, nchars, NULL, 0, NULL, NULL ) ) == 0 ) {
        return NULL;
    }

    char* str = NULL;
    if ( !( str = malloc( ( size_t )nbytes + 1 ) ) ) {
        return NULL;
    }

    str[ nbytes ] = '\0';
    if ( WideCharToMultiByte( CP_UTF8, WC_ERR_INVALID_CHARS, 
        wstr, nchars, str, nbytes, NULL, NULL ) == 0 ) {
        free( str );
        return NULL;
    }
    return str;
}