Описание тега web-scraping

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, "Как начать работу с парсингом" (например, с Excel VBA), следует * тщательно изучить *, поскольку доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.

Веб-скрапинг (также известный как веб-сбор, веб-добыча или извлечение веб-данных) - это акт использования программирования для извлечения информации из Интернета.

Веб-скрапинг работает, запрашивая HTML-страницы с веб-сайта и извлекая определенные данные, используя шаблоны в разметке HTML или внедряя полноценный веб-браузер. Более продвинутые системы веб-скрапинга, а именно в отношении масштабов, планирования и автоматизации, часто называют пауками или поисковыми роботами.

Возможные варианты использования включают:

  • Получение сравнения цен на товары или акции для сравнения,

  • Очистка контактов и сбор адресов электронной почты,

  • Мэшап сайта или создание альтернативного интерфейса для существующего сайта,

  • Сбор статистики цен на недвижимость или продаж автомобилей,

  • Обнаружение изменений веб-сайта

  • Создание архивов мертвых страниц

Практика сбора данных в Интернете вызвала много споров, поскольку условия использования или авторские права на некоторые веб-сайты и электронные публикации не допускают определенных видов интеллектуального анализа данных. Хотя веб-скрапинг сам по себе не является незаконным, могут возникнуть юридические проблемы, если он выполняется со злым умыслом или плагиатом, с целью обойти систему покупки сайтов или плату за подписку, или в других мошеннических или злонамеренных целях.

Было множество судебных исков и других судебных исков против компаний и частных лиц. Прежде чем пытаться извлечь какую-либо информацию с веб-сайта способом, который потенциально противоречит использованию сайтов с отступами, важно проявить должную осмотрительность и изучить применимые местные и международные законы, а также условия обслуживания сайта, авторские права, и товарные знаки. Дальнейшее обсуждение юридических последствий можно найти в Интернете, включая Wikipedia, Hacker News и Laws.com.

Веб-сканирование - это компонент веб-скрапинга на нескольких сайтах, индексация информации в Интернете с помощью бота или "паука", и это универсальный метод, принятый большинством поисковых систем, при этом соблюдая запросы на исключение, такие как опубликованные robots.txt файл разместить на сайте.

Напротив, веб-парсинг больше фокусируется на преобразовании неструктурированных данных в Интернете, обычно из HTML в структурированную форму, которую можно легче хранить, обрабатывать и анализировать с помощью таких инструментов, как база данных или электронная таблица.

Очистка экрана имеет аналогичную цель, но включает программный сбор визуальных данных из источника (в отличие от синтаксического анализа данных, как при очистке веб-страниц) и первоначально предполагала чтение памяти терминала или видеоданных путем подключения терминалов к входному порту другого компьютера.

веб-скрапинг чаще всего сопровождается тегами:

python       (включая beautifulsoup и scrapy)
   ➡    javascript      (включая node.js и phantomjs)
   ➡ r              (включая rvest)
   ➡ селен
   ➡ xml          (включая xpath)
   ➡ java          (включая jsoup)
   ➡ php
   ➡ vba          (включая vba-excel)


Примечание по орфографии

Глагол пишется как соскабливание или как причастие настоящего времени соскабливание, и его не следует путать с словом scrap или scrapping, то есть отбрасывать то, что вам больше не нужно или не нужно, или не продолжать выполнение плана.


Дальнейшее чтение: