Зачем scraperwiki опускать строки из очищенного HTML?
У меня действительно простой скрипт на python в scraperwiki:
import scraperwiki
import lxml.html
html = scraperwiki.scrape("http://www.westphillytools.org/toolsListing.php")
print html
Я еще ничего не написал, чтобы разобрать это... пока я просто хочу HTML.
Когда я запускаю его в режиме редактирования, он работает отлично.
Когда запускается запланированная очистка (или я запускаю ее вручную), она пропускает десятки (или даже сотни) строк.
Это очень маленькая веб-страница, поэтому перегрузка данными не должна быть проблемой. Есть идеи?
2 ответа
В редакторе отдельные операторы печати свернуты в одну строку для отображения. Вы можете нажать "еще..." в консоли редактора, чтобы просмотреть все.
Когда запускается по расписанию, он просто выводится точно так же, как в любой консоли. Поэтому, если в HTML есть возврат каретки, вы получите много строк вывода.
Чтобы уменьшить объем сохраняемой информации, мы усекаем большие выходные данные из запланированных запусков. Вот где вы видели "[53 строки, 159000 символов опущены]".
Это не означает, что стандартный вывод из запланированных запусков предназначен для чего-то кроме отладки. Вы должны сохранить в хранилище данных для вывода, который вы хотите использовать.
Похоже, что данные есть в вашей переменной. Попробуйте напечатать строку за раз.