Зачем scraperwiki опускать строки из очищенного HTML?

У меня действительно простой скрипт на python в scraperwiki:

import scraperwiki
import lxml.html

html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html

Я еще ничего не написал, чтобы разобрать это... пока я просто хочу HTML.

Когда я запускаю его в режиме редактирования, он работает отлично.

Когда запускается запланированная очистка (или я запускаю ее вручную), она пропускает десятки (или даже сотни) строк.

Это очень маленькая веб-страница, поэтому перегрузка данными не должна быть проблемой. Есть идеи?

2 ответа

Решение

В редакторе отдельные операторы печати свернуты в одну строку для отображения. Вы можете нажать "еще..." в консоли редактора, чтобы просмотреть все.

Когда запускается по расписанию, он просто выводится точно так же, как в любой консоли. Поэтому, если в HTML есть возврат каретки, вы получите много строк вывода.

Чтобы уменьшить объем сохраняемой информации, мы усекаем большие выходные данные из запланированных запусков. Вот где вы видели "[53 строки, 159000 символов опущены]".

Это не означает, что стандартный вывод из запланированных запусков предназначен для чего-то кроме отладки. Вы должны сохранить в хранилище данных для вывода, который вы хотите использовать.

Похоже, что данные есть в вашей переменной. Попробуйте напечатать строку за раз.

Другие вопросы по тегам