Преобразование сайтов HTML4 в haskell с помощью blaze-from-html

Я пытаюсь преобразовать веб-сайты в структуру данных HTML, заданную blaze,

curl -S http://jaspervdj.be/blaze | blaze-from-html

Этот пример взят из конца blaze-html руководство. Curl, очевидно, работает, но эта библиотека не может собрать HTML

html $ do
    H.head $ H.title "301 Moved Permanently"
blaze-from-html: Attribute bgcolor is illegal in html5

В самом деле, bgcolor был объявлен устаревшим Как заставить работать с HTML4?


curl -S http://jaspervdj.be/blaze | blaze-from-html -v html4-transitional

Как следует из комментариев, я использовал некоторые переходные функции и получаю 301. Эта страница перенаправляется?

html $ do
    H.head $ H.title "301 Moved Permanently"
    body ! bgcolor "white" $ do
        center $ h1 "301 Moved Permanently"
        hr
        center "nginx/1.2.1"

Тем не мение, wget http://jaspervdj.be/blaze возвращает HTML-содержимое страницы.

1 ответ

Решение

Это работает для меня:

curl -S http://jaspervdj.de/blaze | blaze-from-html -v html4-transitional

Как указано в документации, вы связаны.

Что касается того, почему одна страница пуста и говорит, что она была перенаправлена, кажется, что curl видит разницу между http://jaspervdj.de/blaze а также http://jaspervdj.de/blaze/и веб-сайт, который вы загружаете, ошибочно относится к ним по-разному, в то время как wget Кажется, автоматически перенаправляет, как мой браузер. Я бы предложил связаться с автором сайта и предложить ему исправить это поведение.

Другие вопросы по тегам