Разобрать кусок HTML с помощью nbsp в MSXML
Я пытаюсь загрузить кусок HTML в DOMDocument MSXML. Указанный фрагмент является допустимым XML с одним исключением - он имеет
юридические лица. MSXML подавляет их, заявляет "Ссылка на неопределенную сущность nbsp".
Могу ли я заставить MSXML как-то распознать его как действительный?
1 ответ
Решение
Простое решение: просто замените текст "& nbsp;" на "" перед анализом документа. Что должно сработать, так как не может быть дословного & nbsp; в тексте, который не должен быть заменен.
Более стандартное решение: объявите nbsp; сущность в XML, вставив
<!DOCTYPE foobar [
<!ENTITY nbsp " " >
]>
до корневого узла xml.
Вы также можете использовать "0xA0" и & # x00A0; если вы действительно хотите неразрывный пробел, вместо обычного пробела