Описание тега web-scraping-language
Web Scraping Language - это язык веб-парсинга с открытым исходным кодом от Scrape.it. Автоматизируйте любые действия веб-браузера, такие как переход по множеству ссылок (также известный как сканирование) и извлечение данных с каждой загружаемой страницы, заполнение форм. https://github.com/whatsdis/web-scraping-language
1
ответ
Новичок, значение Ошибка при извлечении изображений с веб-сайта с помощью веб-сканирования
Я пытаюсь запустить этот код, но он дает ошибку значения. ValueError: неизвестный тип URL: '/images/christmas-getaway-2017.jpg' Пожалуйста, пройдите этот код: import requests import urllib.request from bs4 import BeautifulSoup from html.parser impor…
24 авг '20 в 12:43
1
ответ
В Web_Scrapping список возвращает пустой список
import requests from requests import get from bs4 import BeautifulSoup import pandas as pd import numpy as np url = "https://www.covid19india.org/" headers = {"Accept-Language":"en-US, en;q=0.5"} results = requests.get(url,headers = headers) soup = …
09 май '20 в 14:37
1
ответ
Веб-парсинг на Python с использованием Beautiful Soup
Я пытался отбросить данные о новых объектах недвижимости для проекта. Я получаю сообщение об ошибке "NoneType", у объекта нет атрибута "get_text", когда я пытаюсь получить количество кроватей из Интернета. Умею получить не только спальню, но и други…
19 май '20 в 03:12
3
ответа
Как исправить код для очистки веб-сайта Zomato?
Я написал этот код, но получил это как ошибку "IndexError: индекс списка вне допустимого диапазона" после выполнения последней строки. Пожалуйста, как мне это исправить? import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla…
26 мар '20 в 04:05
1
ответ
я занимаюсь веб-сканированием, поэтому возникает эта ошибка, пожалуйста, проверьте это?
TypeError Traceback (последний вызов последним) в ----> 1 desc = soup.findall("td",{"class":"views-field views-field-search-api-exrpt views-field-field-api-description hidden-xs visible-md visible-sm col-md-8"}) TypeError: объект 'NoneType' не вызыв…
10 фев '20 в 14:12
2
ответа
Как мне извлечь текст из элементов тега bs4 в моем коде? Функция использования содержимого не работает
Ошибка ниже при вызове text.strip(): --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-278-135ac185ec3f> in <module> 20 if isinstance(b, Tag): 21 --->…
28 май '20 в 09:10
2
ответа
Парсинг веб-страницы с помощью BeautifulSoup
Я пытаюсь очистить этот сайт: https://www.senate.gov/general/contact_information/senators_cfm.cfm Мой код: import requests from bs4 import BeautifulSoup URL = 'https://www.senate.gov/general/contact_information/senators_cfm.cfm' page = requests.get(…
29 май '20 в 17:03
0
ответов
шансы парсинга веб-сайтов
Я новичок в программировании на Python 3.8.3. Я люблю футбол и люблю изучать шансы разных лиг. Я пытаюсь экстраполировать шансы с сайта https://www.oddsportal.com/, которые затем я хотел бы перенести на excel. У меня две проблемы: Я не могу понять, …
10 июн '20 в 12:11
1
ответ
Ошибка кода VBA при извлечении или извлечении данных с веб-сайта HTML
Я пытаюсь извлечь или извлечь данные из элемента HTML в Excel с помощью кода VBA:https://drive.google.com/file/d/1_fGBlOLzMxmV3r-WwC8klcBNB7wUuJN2/view?usp=sharing Моя идея состоит в том, чтобы извлечь и извлечь данные обменного курса, выделенные же…
15 июн '20 в 19:40
0
ответов
Selenium и BeautifulSoup не находят все элементы на этой веб-странице
Я новичок в парсинге веб-страниц. Я хотел собрать данные о COVID-19 с сайта worldometer.com. Но selenium и BeautifulSoup находят только 7 из последних тегов. Это код: from selenium import webdriver driver=webdriver.Firefox() driver.get('https://www.…
18 июн '20 в 11:59
3
ответа
Веб-парсинг Cheerio ul> атрибут li
Я хочу очистить "цену данных" с этого URL-адреса, но он возвращается неопределенным. Есть идеи? async function variant() { const response = await axios("https://extrabutterny.com/collections/release-draws/products/nike-sb-dunk-low-pro-blue-fury-bq68…
30 мар '20 в 20:19
1
ответ
Посмотреть, как HTML появился в прошлом?
Есть ли инструмент или услуга, с помощью которых я могу определить, как сайт выглядел год назад, если у них есть доступ к html-коду сайта? Например, скажем, я сохраняю, как html-код nba.com сегодня, могу ли я увидеть, как этот html-код визуально поя…
23 май '20 в 22:21
2
ответа
Прочтите URL-адреса из другого файла и очистите данные - Bash
Я хочу получить URL-адреса из URL.txt, а затем добавить их в конец базового URL-адреса https://www.mcdelivery.com.pk/pk/browse/menu.html который присутствует в другом файле menu.sh Файл url.text содержит ?daypartId=1&amp;catId=1 ?daypartId=1&…
07 июн '20 в 13:58
1
ответ
Как прокручивать с помощью библиотеки python requests-html? до конца страницы
Проблема в том, что мне нужно очистить данные, но все данные создаются только при прокрутке. если я очищаю перед прокруткой, удаляются не все данные. from requests_html import AsyncHTMLSession link="https://www.daraz.com.np/catalog/?q={}" asession =…
15 май '20 в 13:16
2
ответа
Как я могу зациклить функцию jsonlite на фрейме данных URL-адресов?
Я пытаюсь запустить функцию jsonlite на наборе URL-адресов API, которые я накопил. В частности, у меня есть фрейм данных url_df, в котором есть столбец с именем URL с 162800 строками URL-адресов API. Когда я пишу сценарий и вручную вставляю каждый U…
29 май '20 в 03:28
0
ответов
Текст разбивается на новые строки из-за тега <br> при очистке
Привет всем, я пытаюсь очистить страницу и данные на ней, но не могу получить ожидаемые данные в одной строке из-за тегов br, присутствующих в тексте, из-за которых данные перемещаются в новую строку, любая помощь будет оценена. Вот мой код: from se…
05 сен '20 в 17:52
1
ответ
Как преобразовать тексты, содержащиеся в подссылках ссылки в R?
Я пытаюсь прочесать этот сайт. Как видите, есть одна основная ссылка и ряд заголовков, которые вы можете щелкнуть, чтобы получить доступ к тексту. В итоге я хотел бы получить текст во всех этих подссылках основной ссылки. Я не очень знаком с веб-ска…
21 июл '20 в 17:41
1
ответ
Избавьтесь от сохраненных дубликатов данных, извлеченных из Интернета, в Google Таблицах
Код, который мне был предоставлен, работает путем сохранения данных, извлеченных из Интернета, в таблицах Google, однако, когда он сохраняет данные, он создает дубликаты той же записи данных из ранее запланированных веб-циклов. Есть ли способ создат…
30 июл '20 в 18:56
0
ответов
Как получить доступ к абзацам, относящимся к определенному разделу Википедии, при парсинге веб-страниц
Я хочу очистить эту страницу Википедии. Я хочу получить абзацы, которые попадают в раздел "Ранняя жизнь", но, как и на этом рисунке в коде HTML, теги расположены один за другим. Первый тег h2 имеет текст ранней жизни, а соответствующие теги p не нах…
19 апр '20 в 21:17
1
ответ
ConnectionResetError: [WinError 10054] Существующее соединение было принудительно закрыто удаленным хостом - получение этой ошибки
ConnectionResetError: [WinError 10054] Существующее соединение было принудительно закрыто удаленным узлом Я получаю эту ошибку при чтении веб-страницы в следующем коде из urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my…
19 июн '20 в 06:47