Описание тега web-scraping
Веб-скрапинг - это процесс извлечения определенной информации с веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, "Как начать работу с парсингом" (например, с Excel VBA), следует * тщательно изучить *, поскольку доступны многочисленные образцы функционального кода. К методам парсинга веб-страниц относятся сторонние приложения, разработка специального программного обеспечения или даже сбор данных вручную стандартным способом.
1
ответ
Как сделать чистку веб-таблицы с сайта, используя R
Я пытаюсь почистить таблицу, найденную на следующем сайте: https://finance.yahoo.com/gainers?e=us Тем не менее, я искал ответы на несколько различных методов, чтобы очистить таблицы с сайта здесь, и ни один из методов не работал для меня. Я пытался:…
06 ноя '16 в 02:46
1
ответ
Как получить все цены на товары с сайта с завитком
Я пытаюсь использовать cURL, чтобы получить все цены на товары с этого сайта, но я действительно не знаю, как очистить все цены на каждый товар на этом сайте http://www.bikestore.ie/. Может кто-нибудь, пожалуйста, дайте мне советы Сом? Прямо сейчас …
05 июл '15 в 20:20
2
ответа
Нужно получить данные с веб-сайта... веб-запрос? макрос?
У меня есть список всех DOT # (отдел транс.) В стране. Я хочу узнать дату вступления в силу страхования для каждой из этих компаний. Если вы перейдете на http://li-public.fmcsa.dot.gov/ -> "continue" ->, то в раскрывающемся списке выберите "поиск оп…
08 мар '13 в 03:56
1
ответ
R- Исключая случайные числа, которые уже были сгенерированы
Итак, я работаю над сценарием веб-скриптинга в R, и поскольку конкретный веб-сайт, который я собираю, не слишком любезен для людей, которые обрабатывают свои данные в больших объемах, я сломал цикл, чтобы обрабатывать только 10 ссылок одновременно.,…
23 июн '15 в 19:01
1
ответ
[DocumentElement] DOMDocument имеет ложное содержание, в то время как [textContent] включает весь текст страницы
Я пытался выбрать контент на странице HTML. Проблема является результатом DOMDocument($html) не имеет элементов в своем узле [documentElement]. Однако все тексты HTML-страницы (кроме HTML-тегов) находятся внутри [textContent], Вот как я сделал DOMDo…
22 окт '17 в 13:09
1
ответ
VBA - система не поддерживает указанную кодировку
Ошибка времени выполнения "--1072896658 (c00ce56e)": система не поддерживает указанную кодировку Я пытаюсь получить данные о ценах с этого сайта: http://web.tmxmoney.com/pricehistory.php?qm_symbol=%5ETTUT. Я получаю сообщение об ошибке "Ошибка време…
21 июл '16 в 19:06
1
ответ
Очистка сайта для правительственной информации с R
Я работаю над канадским федеральным сайтом для исследовательского проекта по онлайн-петициям. Это весь сайт: http://www.oag-bvg.gc.ca/internet/English/pet_lp_e_940.html Мне нужно получить эти данные для каждой петиции: гиперссылка на петицию, номер …
19 май '15 в 02:39
1
ответ
Получение имени и электронной почты с веб-страницы
Я пытаюсь извлечь данные из ссылки. Я хочу получить имя / адрес электронной почты / местоположение / и т.д. с веб-страницы и вставить его на веб-страницу. Я написал код для него всегда, когда я запускаю этот код, он просто хранит пустой список. Пожа…
30 сен '15 в 12:12
0
ответов
Как получить ссылку на скачивание, скрытую за радио-кнопкой?
Я пытаюсь скачать CSV-файл по этой ссылке. Я знаю из этой темы, что нам нужно использовать requests библиотека, чтобы получить ссылку, сначала отправив форму, в этом случае, чтобы сервер знал, что мы хотим файл csv. Однако, поскольку я не знаком с h…
22 янв '18 в 22:13
1
ответ
Соскребаешь ссылки с сайта, используя Node.js, request и cheerio?
Я пытаюсь почистить ссылки на веб-сайте расписания моей школы, используя Node.js, request и cheerio. Однако мой код не достигает всех тематических ссылок. Ссылка на сайт расписания курсов здесь. Ниже мой код: var express = require('express'); var re…
09 фев '16 в 23:32
1
ответ
Возможна очистка этого типа архитектуры сайта?
Я пытаюсь создать веб-приложение для клиента. На этом сайте реализован простой удаленный поиск: https://www.handelsregister.de/rp_web/mask.do?Typ=n Все, что мне нужно сделать, это вставить какое-то значение в поле ввода, помеченное Company or keywor…
26 фев '17 в 20:56
3
ответа
Извлечение href из Beautifulsoup: почему нет?
Я разбираю сайт, используя BeautifulSoup4. Код: for link in soup.find_all("div", {"class": "fl nav_left_2j"}): for item in link.find_all("li"): print(item) Получает меня: <li><a href="/web/20171221213907/http://ldzl.people.com.cn:80/dfzlk/f…
10 авг '18 в 14:02
0
ответов
Asyncio обработка исключений, можно не собирать исключения?
У меня есть код, который делает некоторые вызовы API с asyncio а также aiohttp, Для некоторых URL asyncio вызовет исключение, поэтому я разрешаю ему вернуть его (с asyncio.gather(return_exceptions = True)), поэтому он не прерывает цикл событий. Можн…
08 авг '18 в 12:36
1
ответ
Как я могу зациклить данные для нескольких страниц на сайте, используя python3x
Мне нужно сделать цикл и получить данные JSON со страниц. URL страницы генерируются следующим образом: https: //*.*bounds=506,168,507,169 https: //*.*bounds=506,169,507,170 https: //*.*bounds=506,170,507,171 https: //*.*bounds=506,170,507,171 https:…
19 ноя '17 в 13:54
2
ответа
Невозможно войти на сайт используя Python
Я пытался использовать запросы Python и BeautifulSoup, чтобы попытаться написать веб-скребок. Я пытался зайти на этот сайт, используя несколько решений онлайн, но не смог этого сделать. Одна из причин этого заключается в том, что элементы формы не и…
22 фев '17 в 08:52
1
ответ
Код скребка Greasemonkey захватывает буквы вместо слов?
Я пишу простой пользовательский скрипт, который очищает некоторые спортивные данные и помещает их в таблицу вверху страницы. Однако вместо того, чтобы помещать каждое название команды в отдельный ряд, оно разбивает каждое слово на отдельные буквы и …
08 дек '16 в 00:32
1
ответ
Как написать программу на Python, которая "очищает" результаты веб-сайта от всех возможных комбинаций, выбранных из выпадающих меню?
Существует веб-сайт, который утверждает, что может прогнозировать приблизительную зарплату человека на основе следующих критериев, представленных в форме раскрывающегося списка. Возраст: 5 вариантов Образование: 3 варианта Секс: 3 варианта Опыт рабо…
09 июн '18 в 15:59
1
ответ
Как вывести отдельные теги<p>с помощью HTML Agility Pack в расширенное текстовое поле?
Я только учусь, как использовать HTML Agility Pack для удаления текста с веб-страниц. Я ищу, чтобы получить биографии героев в Overwatch от Blizzard с их сайта. В настоящее время я использую это, чтобы найти и записать нужный текст в поле расширенно…
22 июн '16 в 00:58
0
ответов
Отсутствие HTML-элементов при чтении URL из Java
Я использую этот код для извлечения HTML-кода из URL в Java URL url = new URL(".."); URLConnection connection = url.openConnection(); InputStream inputStream = connection.getInputStream(); String html = IOUtils.toString(inputStream); inputStream.clo…
10 фев '17 в 01:22
1
ответ
Как сохранить текст с сайта, используя beautifulsoup в файл.txt?
Я новичок в Python и веб-соскоб. Я столкнулся с проблемой, и я не могу понять, как ее исправить. Я пытаюсь скопировать текст с веб-сайта, и когда я распечатываю все в терминал, он появляется нормально. Проблема в том, когда я пытаюсь сохранить его в…
05 авг '14 в 07:46