Проблемы кодирования с XMLWriter (PHP)

Возьмите этот простой код PHP:

$xmlWriter = new XMLWriter();
$xmlWriter->openURI('php://output');
$xmlWriter->startDocument('1.0', 'utf-8');

$xmlWriter->writeElement('test', $data);

$xmlWriter->endDocument();
$xmlWriter->flush();

Класс XMLWriter имеет приятную особенность: он преобразует любые данные, которые вы ему предоставляете, в выходную кодировку. Например, здесь он будет конвертировать $data в UTF-8, потому что я прошел 'utf-8' в startDocument функция.

Проблема в том, что в моем случае содержание $data исходит из базы данных, выходной формат которой UTF-8 и , следовательно, уже в UTF-8. XMLWriter, вероятно, думает, что данные находятся в ISO-8859-1, и преобразует их снова в UTF-8, и я получаю странные символы, в которых я должен получить акценты.

В настоящее время я использую utf8_decode вокруг каждой строки, поступающей из базы данных, что означает, что я конвертирую из UTF-8 в ISO-8859-1, а затем XMLWriter превращает ее обратно в UTF-8.

Это работает, но не чисто:

$xmlWriter->writeElement('test', utf8_decode($data));

Есть ли более чистое решение?

РЕДАКТИРОВАТЬ: показывать полный пример

$xmlWriter = new XMLWriter();
$xmlWriter->openURI('php://output');
$xmlWriter->startDocument('1.0', 'utf-8');
$xmlWriter->startElement('usersList');

$database = new PDO('mysql:host=localhost;dbname=xxxxx', 'xxxxx', 'xxxxx');
$database->exec('SET CHARACTER SET UTF8');
$database->exec('SET NAMES UTF8');
foreach ($database->query('SELECT name FROM usersList') as $user)
   $xmlWriter->writeElement('user', $user[0]);   // if the user's name is 'hervé' in the database, it will print 'hervé' instead

$xmlWriter->endElement();
$xmlWriter->endDocument();
$xmlWriter->flush();

1 ответ

Я не уверен, откуда у вас мысль, что XMLWriter конвертирует кодировки Это не так. Вы должны снабдить его utf-8. Он может выводить разные кодировки, но входные строки должны быть utf-8.

Здесь может происходить одно из двух:

  1. Все, что вы используете для просмотра выходного документа, интерпретирует строку как win-1252. Если вы просматриваете выходные данные в браузере, вам может потребоваться установить заголовок типа контента следующим образом: header('Content-Type: application/xml; charset=UTF-8');
  2. Вы неправильно сохранили свои данные в базе данных, и ваш "é" на самом деле состоит из двух символов Юникода "é". Исправить это сложно.
Другие вопросы по тегам