scrapy не может обрабатывать символ "<"
Я пытаюсь извлечь текст, содержащий "<" (ниже символа). На моем локальном хосте все работает нормально, однако на сервере текст после и включая "<" обрезается.
1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 )
так я получаю:
1) hipoksemia t\u0119tnicza (PaO<sub>2</sub>/FiO<sub>2</sub>
Нет проблем с очисткой> символа. Спасибо за помощь.
1 ответ
<
неверный HTML. Так должно быть<
.
Scrapy использует Parsel для синтаксического анализа XML/HTML ответов. Parsel использует lxml для анализа документов XML/HTML. lxml не обрабатывает поврежденный HTML так же, как веб-браузеры и другие парсеры.
У Parsel есть открытая проблема с обработкой этих сценариев. Вероятно, потребуется поддержка альтернативы lxml в Parsel, что нетривиально реализовать, поэтому может потребоваться некоторое время, прежде чем эта проблема будет решена.