Описание тега web-scraping

Описание тега Вопросы с тегом

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, "Как начать работу с парсингом" (например, с Excel VBA), следует * тщательно изучить *, поскольку доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.

1 ответ

Как сделать чистку веб-таблицы с сайта, используя R

Я пытаюсь почистить таблицу, найденную на следующем сайте: https://finance.yahoo.com/gainers?e=us Тем не менее, я искал ответы на несколько различных методов, чтобы очистить таблицы с сайта здесь, и ни один из методов не работал для меня. Я пытался:…

html r web-scraping

06 ноя '16 в 02:46

1 ответ

Как получить все цены на товары с сайта с завитком

Я пытаюсь использовать cURL, чтобы получить все цены на товары с этого сайта, но я действительно не знаю, как очистить все цены на каждый товар на этом сайте http://www.bikestore.ie/. Может кто-нибудь, пожалуйста, дайте мне советы Сом? Прямо сейчас …

php web-scraping curl

05 июл '15 в 20:20

2 ответа

Нужно получить данные с веб-сайта... веб-запрос? макрос?

У меня есть список всех DOT # (отдел транс.) В стране. Я хочу узнать дату вступления в силу страхования для каждой из этих компаний. Если вы перейдете на http://li-public.fmcsa.dot.gov/ -> "continue" ->, то в раскрывающемся списке выберите "поиск оп…

web-scraping macros screen-scraping imacros excel-web-query

08 мар '13 в 03:56

1 ответ

R- Исключая случайные числа, которые уже были сгенерированы

Итак, я работаю над сценарием веб-скриптинга в R, и поскольку конкретный веб-сайт, который я собираю, не слишком любезен для людей, которые обрабатывают свои данные в больших объемах, я сломал цикл, чтобы обрабатывать только 10 ссылок одновременно.,…

r for-loop web-scraping random-sample

23 июн '15 в 19:01

1 ответ

[DocumentElement] DOMDocument имеет ложное содержание, в то время как [textContent] включает весь текст страницы

Я пытался выбрать контент на странице HTML. Проблема является результатом DOMDocument($html) не имеет элементов в своем узле [documentElement]. Однако все тексты HTML-страницы (кроме HTML-тегов) находятся внутри [textContent], Вот как я сделал DOMDo…

php html web-scraping dom xpath

22 окт '17 в 13:09

1 ответ

VBA - система не поддерживает указанную кодировку

Ошибка времени выполнения "--1072896658 (c00ce56e)": система не поддерживает указанную кодировку Я пытаюсь получить данные о ценах с этого сайта: http://web.tmxmoney.com/pricehistory.php?qm_symbol=%5ETTUT. Я получаю сообщение об ошибке "Ошибка време…

excel vba excel-vba web-scraping

21 июл '16 в 19:06

1 ответ

Очистка сайта для правительственной информации с R

Я работаю над канадским федеральным сайтом для исследовательского проекта по онлайн-петициям. Это весь сайт: http://www.oag-bvg.gc.ca/internet/English/pet_lp_e_940.html Мне нужно получить эти данные для каждой петиции: гиперссылка на петицию, номер …

r web-scraping rvest

19 май '15 в 02:39

1 ответ

Получение имени и электронной почты с веб-страницы

Я пытаюсь извлечь данные из ссылки. Я хочу получить имя / адрес электронной почты / местоположение / и т.д. с веб-страницы и вставить его на веб-страницу. Я написал код для него всегда, когда я запускаю этот код, он просто хранит пустой список. Пожа…

python excel selenium selenium-webdriver web-scraping

30 сен '15 в 12:12

0 ответов

Как получить ссылку на скачивание, скрытую за радио-кнопкой?

Я пытаюсь скачать CSV-файл по этой ссылке. Я знаю из этой темы, что нам нужно использовать requests библиотека, чтобы получить ссылку, сначала отправив форму, в этом случае, чтобы сервер знал, что мы хотим файл csv. Однако, поскольку я не знаком с h…

html web-scraping python-requests

22 янв '18 в 22:13

1 ответ

Соскребаешь ссылки с сайта, используя Node.js, request и cheerio?

Я пытаюсь почистить ссылки на веб-сайте расписания моей школы, используя Node.js, request и cheerio. Однако мой код не достигает всех тематических ссылок. Ссылка на сайт расписания курсов здесь. Ниже мой код: var express = require('express'); var re…

javascript html node.js web-scraping cheerio

09 фев '16 в 23:32

1 ответ

Возможна очистка этого типа архитектуры сайта?

Я пытаюсь создать веб-приложение для клиента. На этом сайте реализован простой удаленный поиск: https://www.handelsregister.de/rp_web/mask.do?Typ=n Все, что мне нужно сделать, это вставить какое-то значение в поле ввода, помеченное Company or keywor…

web-scraping xmlhttprequest httprequest httpresponse

26 фев '17 в 20:56

3 ответа

Извлечение href из Beautifulsoup: почему нет?

Я разбираю сайт, используя BeautifulSoup4. Код: for link in soup.find_all("div", {"class": "fl nav_left_2j"}): for item in link.find_all("li"): print(item) Получает меня: <li><a href="/web/20171221213907/http://ldzl.people.com.cn:80/dfzlk/f…

python web-scraping beautifulsoup

10 авг '18 в 14:02

0 ответов

Asyncio обработка исключений, можно не собирать исключения?

У меня есть код, который делает некоторые вызовы API с asyncio а также aiohttp, Для некоторых URL asyncio вызовет исключение, поэтому я разрешаю ему вернуть его (с asyncio.gather(return_exceptions = True)), поэтому он не прерывает цикл событий. Можн…

python list web-scraping exception-handling python-asyncio

08 авг '18 в 12:36

1 ответ

Как я могу зациклить данные для нескольких страниц на сайте, используя python3x

Мне нужно сделать цикл и получить данные JSON со страниц. URL страницы генерируются следующим образом: https: //*.*bounds=506,168,507,169 https: //*.*bounds=506,169,507,170 https: //*.*bounds=506,170,507,171 https: //*.*bounds=506,170,507,171 https:…

python-3.x loops web-scraping

19 ноя '17 в 13:54

2 ответа

Невозможно войти на сайт используя Python

Я пытался использовать запросы Python и BeautifulSoup, чтобы попытаться написать веб-скребок. Я пытался зайти на этот сайт, используя несколько решений онлайн, но не смог этого сделать. Одна из причин этого заключается в том, что элементы формы не и…

python web-scraping beautifulsoup

22 фев '17 в 08:52

1 ответ

Код скребка Greasemonkey захватывает буквы вместо слов?

Я пишу простой пользовательский скрипт, который очищает некоторые спортивные данные и помещает их в таблицу вверху страницы. Однако вместо того, чтобы помещать каждое название команды в отдельный ряд, оно разбивает каждое слово на отдельные буквы и …

javascript jquery web-scraping greasemonkey

08 дек '16 в 00:32

1 ответ

Как написать программу на Python, которая "очищает" результаты веб-сайта от всех возможных комбинаций, выбранных из выпадающих меню?

Существует веб-сайт, который утверждает, что может прогнозировать приблизительную зарплату человека на основе следующих критериев, представленных в форме раскрывающегося списка. Возраст: 5 вариантов Образование: 3 варианта Секс: 3 варианта Опыт рабо…

python selenium selenium-webdriver web-scraping regression

09 июн '18 в 15:59

1 ответ

Как вывести отдельные теги<p>с помощью HTML Agility Pack в расширенное текстовое поле?

Я только учусь, как использовать HTML Agility Pack для удаления текста с веб-страниц. Я ищу, чтобы получить биографии героев в Overwatch от Blizzard с их сайта. В настоящее время я использую это, чтобы найти и записать нужный текст в поле расширенно…

c# html web-scraping formatting html-agility-pack

22 июн '16 в 00:58

0 ответов

Отсутствие HTML-элементов при чтении URL из Java

Я использую этот код для извлечения HTML-кода из URL в Java URL url = new URL(".."); URLConnection connection = url.openConnection(); InputStream inputStream = connection.getInputStream(); String html = IOUtils.toString(inputStream); inputStream.clo…

java html web-scraping

10 фев '17 в 01:22

1 ответ

Как сохранить текст с сайта, используя beautifulsoup в файл.txt?

Я новичок в Python и веб-соскоб. Я столкнулся с проблемой, и я не могу понять, как ее исправить. Я пытаюсь скопировать текст с веб-сайта, и когда я распечатываю все в терминал, он появляется нормально. Проблема в том, когда я пытаюсь сохранить его в…

python web-scraping beautifulsoup text mechanize

05 авг '14 в 07:46