scrapy не может обрабатывать символ "<"

Я пытаюсь извлечь текст, содержащий "<" (ниже символа). На моем локальном хосте все работает нормально, однако на сервере текст после и включая "<" обрезается.

1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 )

так я получаю:

1) hipoksemia t\u0119tnicza (PaO<sub>2</sub>/FiO<sub>2</sub>

Нет проблем с очисткой> символа. Спасибо за помощь.

1 ответ

<неверный HTML. Так должно быть&lt;.

Scrapy использует Parsel для синтаксического анализа XML/HTML ответов. Parsel использует lxml для анализа документов XML/HTML. lxml не обрабатывает поврежденный HTML так же, как веб-браузеры и другие парсеры.

У Parsel есть открытая проблема с обработкой этих сценариев. Вероятно, потребуется поддержка альтернативы lxml в Parsel, что нетривиально реализовать, поэтому может потребоваться некоторое время, прежде чем эта проблема будет решена.

Другие вопросы по тегам