Описание тега web-scraping-language

Web Scraping Language - это язык веб-парсинга с открытым исходным кодом от Scrape.it. Автоматизируйте любые действия веб-браузера, такие как переход по множеству ссылок (также известный как сканирование) и извлечение данных с каждой загружаемой страницы, заполнение форм. https://github.com/whatsdis/web-scraping-language
1 ответ

Новичок, значение Ошибка при извлечении изображений с веб-сайта с помощью веб-сканирования

Я пытаюсь запустить этот код, но он дает ошибку значения. ValueError: неизвестный тип URL: '/images/christmas-getaway-2017.jpg' Пожалуйста, пройдите этот код: import requests import urllib.request from bs4 import BeautifulSoup from html.parser impor…
24 авг '20 в 12:43
1 ответ

В Web_Scrapping список возвращает пустой список

import requests from requests import get from bs4 import BeautifulSoup import pandas as pd import numpy as np url = "https://www.covid19india.org/" headers = {"Accept-Language":"en-US, en;q=0.5"} results = requests.get(url,headers = headers) soup = …
1 ответ

Веб-парсинг на Python с использованием Beautiful Soup

Я пытался отбросить данные о новых объектах недвижимости для проекта. Я получаю сообщение об ошибке "NoneType", у объекта нет атрибута "get_text", когда я пытаюсь получить количество кроватей из Интернета. Умею получить не только спальню, но и други…
3 ответа

Как исправить код для очистки веб-сайта Zomato?

Я написал этот код, но получил это как ошибку "IndexError: индекс списка вне допустимого диапазона" после выполнения последней строки. Пожалуйста, как мне это исправить? import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla…
1 ответ

я занимаюсь веб-сканированием, поэтому возникает эта ошибка, пожалуйста, проверьте это?

TypeError Traceback (последний вызов последним) в ----> 1 desc = soup.findall("td",{"class":"views-field views-field-search-api-exrpt views-field-field-api-description hidden-xs visible-md visible-sm col-md-8"}) TypeError: объект 'NoneType' не вызыв…
10 фев '20 в 14:12
2 ответа

Как мне извлечь текст из элементов тега bs4 в моем коде? Функция использования содержимого не работает

Ошибка ниже при вызове text.strip(): --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-278-135ac185ec3f> in <module> 20 if isinstance(b, Tag): 21 ---&gt…
2 ответа

Парсинг веб-страницы с помощью BeautifulSoup

Я пытаюсь очистить этот сайт: https://www.senate.gov/general/contact_information/senators_cfm.cfm Мой код: import requests from bs4 import BeautifulSoup URL = 'https://www.senate.gov/general/contact_information/senators_cfm.cfm' page = requests.get(…
0 ответов

шансы парсинга веб-сайтов

Я новичок в программировании на Python 3.8.3. Я люблю футбол и люблю изучать шансы разных лиг. Я пытаюсь экстраполировать шансы с сайта https://www.oddsportal.com/, которые затем я хотел бы перенести на excel. У меня две проблемы: Я не могу понять, …
10 июн '20 в 12:11
1 ответ

Ошибка кода VBA при извлечении или извлечении данных с веб-сайта HTML

Я пытаюсь извлечь или извлечь данные из элемента HTML в Excel с помощью кода VBA:https://drive.google.com/file/d/1_fGBlOLzMxmV3r-WwC8klcBNB7wUuJN2/view?usp=sharing Моя идея состоит в том, чтобы извлечь и извлечь данные обменного курса, выделенные же…
0 ответов

Selenium и BeautifulSoup не находят все элементы на этой веб-странице

Я новичок в парсинге веб-страниц. Я хотел собрать данные о COVID-19 с сайта worldometer.com. Но selenium и BeautifulSoup находят только 7 из последних тегов. Это код: from selenium import webdriver driver=webdriver.Firefox() driver.get('https://www.…
3 ответа

Веб-парсинг Cheerio ul> атрибут li

Я хочу очистить "цену данных" с этого URL-адреса, но он возвращается неопределенным. Есть идеи? async function variant() { const response = await axios("https://extrabutterny.com/collections/release-draws/products/nike-sb-dunk-low-pro-blue-fury-bq68…
1 ответ

Посмотреть, как HTML появился в прошлом?

Есть ли инструмент или услуга, с помощью которых я могу определить, как сайт выглядел год назад, если у них есть доступ к html-коду сайта? Например, скажем, я сохраняю, как html-код nba.com сегодня, могу ли я увидеть, как этот html-код визуально поя…
2 ответа

Прочтите URL-адреса из другого файла и очистите данные - Bash

Я хочу получить URL-адреса из URL.txt, а затем добавить их в конец базового URL-адреса https://www.mcdelivery.com.pk/pk/browse/menu.html который присутствует в другом файле menu.sh Файл url.text содержит ?daypartId=1&catId=1 ?daypartId=1&amp…
1 ответ

Как прокручивать с помощью библиотеки python requests-html? до конца страницы

Проблема в том, что мне нужно очистить данные, но все данные создаются только при прокрутке. если я очищаю перед прокруткой, удаляются не все данные. from requests_html import AsyncHTMLSession link="https://www.daraz.com.np/catalog/?q={}" asession =…
2 ответа

Как я могу зациклить функцию jsonlite на фрейме данных URL-адресов?

Я пытаюсь запустить функцию jsonlite на наборе URL-адресов API, которые я накопил. В частности, у меня есть фрейм данных url_df, в котором есть столбец с именем URL с 162800 строками URL-адресов API. Когда я пишу сценарий и вручную вставляю каждый U…
29 май '20 в 03:28
0 ответов

Текст разбивается на новые строки из-за тега <br> при очистке

Привет всем, я пытаюсь очистить страницу и данные на ней, но не могу получить ожидаемые данные в одной строке из-за тегов br, присутствующих в тексте, из-за которых данные перемещаются в новую строку, любая помощь будет оценена. Вот мой код: from se…
1 ответ

Как преобразовать тексты, содержащиеся в подссылках ссылки в R?

Я пытаюсь прочесать этот сайт. Как видите, есть одна основная ссылка и ряд заголовков, которые вы можете щелкнуть, чтобы получить доступ к тексту. В итоге я хотел бы получить текст во всех этих подссылках основной ссылки. Я не очень знаком с веб-ска…
21 июл '20 в 17:41
1 ответ

Избавьтесь от сохраненных дубликатов данных, извлеченных из Интернета, в Google Таблицах

Код, который мне был предоставлен, работает путем сохранения данных, извлеченных из Интернета, в таблицах Google, однако, когда он сохраняет данные, он создает дубликаты той же записи данных из ранее запланированных веб-циклов. Есть ли способ создат…
0 ответов

Как получить доступ к абзацам, относящимся к определенному разделу Википедии, при парсинге веб-страниц

Я хочу очистить эту страницу Википедии. Я хочу получить абзацы, которые попадают в раздел "Ранняя жизнь", но, как и на этом рисунке в коде HTML, теги расположены один за другим. Первый тег h2 имеет текст ранней жизни, а соответствующие теги p не нах…
19 апр '20 в 21:17
1 ответ

ConnectionResetError: [WinError 10054] Существующее соединение было принудительно закрыто удаленным хостом - получение этой ошибки

ConnectionResetError: [WinError 10054] Существующее соединение было принудительно закрыто удаленным узлом Я получаю эту ошибку при чтении веб-страницы в следующем коде из urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my…
19 июн '20 в 06:47