Преобразование сайтов HTML4 в haskell с помощью blaze-from-html
Я пытаюсь преобразовать веб-сайты в структуру данных HTML, заданную blaze
,
curl -S http://jaspervdj.be/blaze | blaze-from-html
Этот пример взят из конца blaze-html
руководство. Curl, очевидно, работает, но эта библиотека не может собрать HTML
html $ do
H.head $ H.title "301 Moved Permanently"
blaze-from-html: Attribute bgcolor is illegal in html5
В самом деле, bgcolor
был объявлен устаревшим Как заставить работать с HTML4?
curl -S http://jaspervdj.be/blaze | blaze-from-html -v html4-transitional
Как следует из комментариев, я использовал некоторые переходные функции и получаю 301. Эта страница перенаправляется?
html $ do
H.head $ H.title "301 Moved Permanently"
body ! bgcolor "white" $ do
center $ h1 "301 Moved Permanently"
hr
center "nginx/1.2.1"
Тем не мение, wget http://jaspervdj.be/blaze
возвращает HTML-содержимое страницы.
1 ответ
Это работает для меня:
curl -S http://jaspervdj.de/blaze | blaze-from-html -v html4-transitional
Как указано в документации, вы связаны.
Что касается того, почему одна страница пуста и говорит, что она была перенаправлена, кажется, что curl видит разницу между http://jaspervdj.de/blaze
а также http://jaspervdj.de/blaze/
и веб-сайт, который вы загружаете, ошибочно относится к ним по-разному, в то время как wget
Кажется, автоматически перенаправляет, как мой браузер. Я бы предложил связаться с автором сайта и предложить ему исправить это поведение.