Описание тега web-scraping-language

Вопросы с тегом

Web Scraping Language - это язык веб-парсинга с открытым исходным кодом от Scrape.it. Автоматизируйте любые действия веб-браузера, такие как переход по множеству ссылок (также известный как сканирование) и извлечение данных с каждой загружаемой страницы, заполнение форм. https://github.com/whatsdis/web-scraping-language

1 ответ

Новичок, значение Ошибка при извлечении изображений с веб-сайта с помощью веб-сканирования

Я пытаюсь запустить этот код, но он дает ошибку значения. ValueError: неизвестный тип URL: '/images/christmas-getaway-2017.jpg' Пожалуйста, пройдите этот код: import requests import urllib.request from bs4 import BeautifulSoup from html.parser impor…

python image web-scraping-language

24 авг '20 в 12:43

1 ответ

В Web_Scrapping список возвращает пустой список

import requests from requests import get from bs4 import BeautifulSoup import pandas as pd import numpy as np url = "https://www.covid19india.org/" headers = {"Accept-Language":"en-US, en;q=0.5"} results = requests.get(url,headers = headers) soup = …

python web-scraping web-scraping-language webscarab

09 май '20 в 14:37

1 ответ

Веб-парсинг на Python с использованием Beautiful Soup

Я пытался отбросить данные о новых объектах недвижимости для проекта. Я получаю сообщение об ошибке "NoneType", у объекта нет атрибута "get_text", когда я пытаюсь получить количество кроватей из Интернета. Умею получить не только спальню, но и други…

python dataframe web-scraping data-science web-scraping-language

19 май '20 в 03:12

3 ответа

Как исправить код для очистки веб-сайта Zomato?

Я написал этот код, но получил это как ошибку "IndexError: индекс списка вне допустимого диапазона" после выполнения последней строки. Пожалуйста, как мне это исправить? import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla…

python python-3.x web-scraping data-science web-scraping-language

26 мар '20 в 04:05

1 ответ

я занимаюсь веб-сканированием, поэтому возникает эта ошибка, пожалуйста, проверьте это?

TypeError Traceback (последний вызов последним) в ----> 1 desc = soup.findall("td",{"class":"views-field views-field-search-api-exrpt views-field-field-api-description hidden-xs visible-md visible-sm col-md-8"}) TypeError: объект 'NoneType' не вызыв…

web-scraping web-scraping-language

10 фев '20 в 14:12

2 ответа

Как мне извлечь текст из элементов тега bs4 в моем коде? Функция использования содержимого не работает

Ошибка ниже при вызове text.strip(): --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-278-135ac185ec3f> in <module> 20 if isinstance(b, Tag): 21 ---&gt…

python web-scraping beautifulsoup web-scraping-language

28 май '20 в 09:10

2 ответа

Парсинг веб-страницы с помощью BeautifulSoup

Я пытаюсь очистить этот сайт: https://www.senate.gov/general/contact_information/senators_cfm.cfm Мой код: import requests from bs4 import BeautifulSoup URL = 'https://www.senate.gov/general/contact_information/senators_cfm.cfm' page = requests.get(…

python web-scraping beautifulsoup html-parsing web-scraping-language

29 май '20 в 17:03

0 ответов

шансы парсинга веб-сайтов

Я новичок в программировании на Python 3.8.3. Я люблю футбол и люблю изучать шансы разных лиг. Я пытаюсь экстраполировать шансы с сайта https://www.oddsportal.com/, которые затем я хотел бы перенести на excel. У меня две проблемы: Я не могу понять, …

python web-scraping web web-scraping-language

10 июн '20 в 12:11

1 ответ

Ошибка кода VBA при извлечении или извлечении данных с веб-сайта HTML

Я пытаюсь извлечь или извлечь данные из элемента HTML в Excel с помощью кода VBA:https://drive.google.com/file/d/1_fGBlOLzMxmV3r-WwC8klcBNB7wUuJN2/view?usp=sharing Моя идея состоит в том, чтобы извлечь и извлечь данные обменного курса, выделенные же…

web-scraping getelementsbyclassname navigateurl web-scraping-language

15 июн '20 в 19:40

0 ответов

Selenium и BeautifulSoup не находят все элементы на этой веб-странице

Я новичок в парсинге веб-страниц. Я хотел собрать данные о COVID-19 с сайта worldometer.com. Но selenium и BeautifulSoup находят только 7 из последних тегов. Это код: from selenium import webdriver driver=webdriver.Firefox() driver.get('https://www.…

python selenium web-scraping beautifulsoup web-scraping-language

18 июн '20 в 11:59

3 ответа

Веб-парсинг Cheerio ul> атрибут li

Я хочу очистить "цену данных" с этого URL-адреса, но он возвращается неопределенным. Есть идеи? async function variant() { const response = await axios("https://extrabutterny.com/collections/release-draws/products/nike-sb-dunk-low-pro-blue-fury-bq68…

node.js web-scraping request cheerio web-scraping-language

30 мар '20 в 20:19

1 ответ

Посмотреть, как HTML появился в прошлом?

Есть ли инструмент или услуга, с помощью которых я могу определить, как сайт выглядел год назад, если у них есть доступ к html-коду сайта? Например, скажем, я сохраняю, как html-код nba.com сегодня, могу ли я увидеть, как этот html-код визуально поя…

html selenium web-scraping scrapy web-scraping-language

23 май '20 в 22:21

2 ответа

Прочтите URL-адреса из другого файла и очистите данные - Bash

Я хочу получить URL-адреса из URL.txt, а затем добавить их в конец базового URL-адреса https://www.mcdelivery.com.pk/pk/browse/menu.html который присутствует в другом файле menu.sh Файл url.text содержит ?daypartId=1&amp;catId=1 ?daypartId=1&amp…

arrays bash web-scraping readfile web-scraping-language

07 июн '20 в 13:58

1 ответ

Как прокручивать с помощью библиотеки python requests-html? до конца страницы

Проблема в том, что мне нужно очистить данные, но все данные создаются только при прокрутке. если я очищаю перед прокруткой, удаляются не все данные. from requests_html import AsyncHTMLSession link="https://www.daraz.com.np/catalog/?q={}" asession =…

web-scraping python-requests python-requests-html web-scraping-language

15 май '20 в 13:16

2 ответа

Как я могу зациклить функцию jsonlite на фрейме данных URL-адресов?

Я пытаюсь запустить функцию jsonlite на наборе URL-адресов API, которые я накопил. В частности, у меня есть фрейм данных url_df, в котором есть столбец с именем URL с 162800 строками URL-адресов API. Когда я пишу сценарий и вручную вставляю каждый U…

r json api web-scraping web-scraping-language

29 май '20 в 03:28

0 ответов

Текст разбивается на новые строки из-за тега <br> при очистке

Привет всем, я пытаюсь очистить страницу и данные на ней, но не могу получить ожидаемые данные в одной строке из-за тегов br, присутствующих в тексте, из-за которых данные перемещаются в новую строку, любая помощь будет оценена. Вот мой код: from se…

python python-3.x selenium-webdriver web-scraping web-scraping-language

05 сен '20 в 17:52

1 ответ

Как преобразовать тексты, содержащиеся в подссылках ссылки в R?

Я пытаюсь прочесать этот сайт. Как видите, есть одна основная ссылка и ряд заголовков, которые вы можете щелкнуть, чтобы получить доступ к тексту. В итоге я хотел бы получить текст во всех этих подссылках основной ссылки. Я не очень знаком с веб-ска…

r web-scraping rvest web-scraping-language

21 июл '20 в 17:41

1 ответ

Избавьтесь от сохраненных дубликатов данных, извлеченных из Интернета, в Google Таблицах

Код, который мне был предоставлен, работает путем сохранения данных, извлеченных из Интернета, в таблицах Google, однако, когда он сохраняет данные, он создает дубликаты той же записи данных из ранее запланированных веб-циклов. Есть ли способ создат…

google-sheets web-scraping google-sheets-formula google-sheets-api web-scraping-language

30 июл '20 в 18:56

0 ответов

Как получить доступ к абзацам, относящимся к определенному разделу Википедии, при парсинге веб-страниц

Я хочу очистить эту страницу Википедии. Я хочу получить абзацы, которые попадают в раздел "Ранняя жизнь", но, как и на этом рисунке в коде HTML, теги расположены один за другим. Первый тег h2 имеет текст ранней жизни, а соответствующие теги p не нах…

web-scraping web-scraping-language

19 апр '20 в 21:17

1 ответ

ConnectionResetError: [WinError 10054] Существующее соединение было принудительно закрыто удаленным хостом - получение этой ошибки

ConnectionResetError: [WinError 10054] Существующее соединение было принудительно закрыто удаленным узлом Я получаю эту ошибку при чтении веб-страницы в следующем коде из urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my…

python web-scraping web-scraping-language

19 июн '20 в 06:47