Описание тега web-scraping

Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, "Как начать работу с парсингом" (например, с Excel VBA), следует * тщательно изучить *, поскольку доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.
1 ответ

Как сделать чистку веб-таблицы с сайта, используя R

Я пытаюсь почистить таблицу, найденную на следующем сайте: https://finance.yahoo.com/gainers?e=us Тем не менее, я искал ответы на несколько различных методов, чтобы очистить таблицы с сайта здесь, и ни один из методов не работал для меня. Я пытался:…
06 ноя '16 в 02:46
1 ответ

Как получить все цены на товары с сайта с завитком

Я пытаюсь использовать cURL, чтобы получить все цены на товары с этого сайта, но я действительно не знаю, как очистить все цены на каждый товар на этом сайте http://www.bikestore.ie/. Может кто-нибудь, пожалуйста, дайте мне советы Сом? Прямо сейчас …
05 июл '15 в 20:20
2 ответа

Нужно получить данные с веб-сайта... веб-запрос? макрос?

У меня есть список всех DOT # (отдел транс.) В стране. Я хочу узнать дату вступления в силу страхования для каждой из этих компаний. Если вы перейдете на http://li-public.fmcsa.dot.gov/ -> "continue" ->, то в раскрывающемся списке выберите "поиск оп…
1 ответ

R- Исключая случайные числа, которые уже были сгенерированы

Итак, я работаю над сценарием веб-скриптинга в R, и поскольку конкретный веб-сайт, который я собираю, не слишком любезен для людей, которые обрабатывают свои данные в больших объемах, я сломал цикл, чтобы обрабатывать только 10 ссылок одновременно.,…
23 июн '15 в 19:01
1 ответ

[DocumentElement] DOMDocument имеет ложное содержание, в то время как [textContent] включает весь текст страницы

Я пытался выбрать контент на странице HTML. Проблема является результатом DOMDocument($html) не имеет элементов в своем узле [documentElement]. Однако все тексты HTML-страницы (кроме HTML-тегов) находятся внутри [textContent], Вот как я сделал DOMDo…
22 окт '17 в 13:09
1 ответ

VBA - система не поддерживает указанную кодировку

Ошибка времени выполнения "--1072896658 (c00ce56e)": система не поддерживает указанную кодировку Я пытаюсь получить данные о ценах с этого сайта: http://web.tmxmoney.com/pricehistory.php?qm_symbol=%5ETTUT. Я получаю сообщение об ошибке "Ошибка време…
21 июл '16 в 19:06
1 ответ

Очистка сайта для правительственной информации с R

Я работаю над канадским федеральным сайтом для исследовательского проекта по онлайн-петициям. Это весь сайт: http://www.oag-bvg.gc.ca/internet/English/pet_lp_e_940.html Мне нужно получить эти данные для каждой петиции: гиперссылка на петицию, номер …
19 май '15 в 02:39
1 ответ

Получение имени и электронной почты с веб-страницы

Я пытаюсь извлечь данные из ссылки. Я хочу получить имя / адрес электронной почты / местоположение / и т.д. с веб-страницы и вставить его на веб-страницу. Я написал код для него всегда, когда я запускаю этот код, он просто хранит пустой список. Пожа…
0 ответов

Как получить ссылку на скачивание, скрытую за радио-кнопкой?

Я пытаюсь скачать CSV-файл по этой ссылке. Я знаю из этой темы, что нам нужно использовать requests библиотека, чтобы получить ссылку, сначала отправив форму, в этом случае, чтобы сервер знал, что мы хотим файл csv. Однако, поскольку я не знаком с h…
22 янв '18 в 22:13
1 ответ

Соскребаешь ссылки с сайта, используя Node.js, request и cheerio?

Я пытаюсь почистить ссылки на веб-сайте расписания моей школы, используя Node.js, request и cheerio. Однако мой код не достигает всех тематических ссылок. Ссылка на сайт расписания курсов здесь. Ниже мой код: var express = require('express'); var re…
09 фев '16 в 23:32
1 ответ

Возможна очистка этого типа архитектуры сайта?

Я пытаюсь создать веб-приложение для клиента. На этом сайте реализован простой удаленный поиск: https://www.handelsregister.de/rp_web/mask.do?Typ=n Все, что мне нужно сделать, это вставить какое-то значение в поле ввода, помеченное Company or keywor…
3 ответа

Извлечение href из Beautifulsoup: почему нет?

Я разбираю сайт, используя BeautifulSoup4. Код: for link in soup.find_all("div", {"class": "fl nav_left_2j"}): for item in link.find_all("li"): print(item) Получает меня: <li><a href="/web/20171221213907/http://ldzl.people.com.cn:80/dfzlk/f…
10 авг '18 в 14:02
0 ответов

Asyncio обработка исключений, можно не собирать исключения?

У меня есть код, который делает некоторые вызовы API с asyncio а также aiohttp, Для некоторых URL asyncio вызовет исключение, поэтому я разрешаю ему вернуть его (с asyncio.gather(return_exceptions = True)), поэтому он не прерывает цикл событий. Можн…
1 ответ

Как я могу зациклить данные для нескольких страниц на сайте, используя python3x

Мне нужно сделать цикл и получить данные JSON со страниц. URL страницы генерируются следующим образом: https: //*.*bounds=506,168,507,169 https: //*.*bounds=506,169,507,170 https: //*.*bounds=506,170,507,171 https: //*.*bounds=506,170,507,171 https:…
19 ноя '17 в 13:54
2 ответа

Невозможно войти на сайт используя Python

Я пытался использовать запросы Python и BeautifulSoup, чтобы попытаться написать веб-скребок. Я пытался зайти на этот сайт, используя несколько решений онлайн, но не смог этого сделать. Одна из причин этого заключается в том, что элементы формы не и…
22 фев '17 в 08:52
1 ответ

Код скребка Greasemonkey захватывает буквы вместо слов?

Я пишу простой пользовательский скрипт, который очищает некоторые спортивные данные и помещает их в таблицу вверху страницы. Однако вместо того, чтобы помещать каждое название команды в отдельный ряд, оно разбивает каждое слово на отдельные буквы и …
08 дек '16 в 00:32
1 ответ

Как написать программу на Python, которая "очищает" результаты веб-сайта от всех возможных комбинаций, выбранных из выпадающих меню?

Существует веб-сайт, который утверждает, что может прогнозировать приблизительную зарплату человека на основе следующих критериев, представленных в форме раскрывающегося списка. Возраст: 5 вариантов Образование: 3 варианта Секс: 3 варианта Опыт рабо…
1 ответ

Как вывести отдельные теги<p>с помощью HTML Agility Pack в расширенное текстовое поле?

Я только учусь, как использовать HTML Agility Pack для удаления текста с веб-страниц. Я ищу, чтобы получить биографии героев в Overwatch от Blizzard с их сайта. В настоящее время я использую это, чтобы найти и записать нужный текст в поле расширенно…
0 ответов

Отсутствие HTML-элементов при чтении URL из Java

Я использую этот код для извлечения HTML-кода из URL в Java URL url = new URL(".."); URLConnection connection = url.openConnection(); InputStream inputStream = connection.getInputStream(); String html = IOUtils.toString(inputStream); inputStream.clo…
10 фев '17 в 01:22
1 ответ

Как сохранить текст с сайта, используя beautifulsoup в файл.txt?

Я новичок в Python и веб-соскоб. Я столкнулся с проблемой, и я не могу понять, как ее исправить. Я пытаюсь скопировать текст с веб-сайта, и когда я распечатываю все в терминал, он появляется нормально. Проблема в том, когда я пытаюсь сохранить его в…