Описание тега screen-scraping
Очистка экрана, также известная как веб-очистка или сбор данных, - это программный метод, используемый для сбора и анализа информации с веб-сайтов. Информация извлекается с помощью парсера, например, с использованием регулярных выражений или, в случае эмулятора 3270, вариантовHLLAPI
.
Вопросы, содержащие этот тег, должны быть напрямую связаны со сбором информации с веб-сайтов с использованием механизма синтаксического анализа, такого как регулярные выражения или эмуляторы браузера, такие как PhantomJS. (Вопросы об очистке экрана с использованием регулярных выражений также следует помечать тегами regex.)
Поскольку информация на веб-страницах почти наверняка организована в виде хорошо отформатированного HTML, простая очистка экрана может оказаться простой задачей. В большинстве случаев причина очистки экрана заключается не только в том, чтобы проанализировать данные на веб-странице, но и затем для их сбора путем воспроизведения на другой веб-странице или сохранения в базе данных.
Одна из наиболее распространенных причин проблем при сканировании веб-страниц заключается в том, что веб-страница, отображаемая в браузере (с использованием инструментов проверки DOM), может сильно отличаться от HTML-кода, полученного инструментом очистки веб-страниц с того же URL-адреса. Например, может быть код Javascript, который дополняет или изменяет содержимое страницы при загрузке в браузере.
Важно отметить, что сканирование веб-сайтов с экрана может противоречить отдельным Условиям использования веб-сайта, но возможность принудительного исполнения этих условий неясна. Обратите внимание, что большинство основных хостов веб-сайтов могут обнаруживать продолжающееся сканирование экрана и могут действовать, как если бы это была атака типа " отказ в обслуживании".
Исторически сложилось так, что очистка экрана также описывала метод "очистки" данных от или на эмуляторе 3270. Этот метод приобрел некоторую популярность вскоре после появления таких эмуляторов. Реализованные эмуляторы API 3270 были известны как HLLAPI (интерфейс программирования приложений высокого уровня), позже появились EHLLAPI (расширенный HLLAPI) и WinHLLAPI. Прикладные программы "управляли" эмулятором, посылая имитированные нажатия клавиш и функциональные клавиши, а затем ожидая ответов.