scrapy не может обрабатывать символ "<"

Question

scrapy не может обрабатывать символ "<"

Я пытаюсь извлечь текст, содержащий "<" (ниже символа). На моем локальном хосте все работает нормально, однако на сервере текст после и включая "<" обрезается.

1) hipoksemia tętnicza (PaO<sub>2</sub>/FiO<sub>2</sub> < 300 )

так я получаю:

1) hipoksemia t\u0119tnicza (PaO<sub>2</sub>/FiO<sub>2</sub>

Нет проблем с очисткой> символа. Спасибо за помощь.

1

scrapy lxml parsel

Источник

user1003338 07 ноя '19 в 16:59

1 ответ

Другие вопросы по тегам scrapy lxml parsel

user939364 08 ноя '19 в 15:54 2019-11-08 15:54 · Answer 1 · 2019-11-08 15:54

<неверный HTML. Так должно быть<.

Scrapy использует Parsel для синтаксического анализа XML/HTML ответов. Parsel использует lxml для анализа документов XML/HTML. lxml не обрабатывает поврежденный HTML так же, как веб-браузеры и другие парсеры.

У Parsel есть открытая проблема с обработкой этих сценариев. Вероятно, потребуется поддержка альтернативы lxml в Parsel, что нетривиально реализовать, поэтому может потребоваться некоторое время, прежде чем эта проблема будет решена.

scrapy не может обрабатывать символ "&lt;"

1 ответ

scrapy не может обрабатывать символ "<"