NoneBs 4 - это 4-я версия BeautifulSoup
1 ответ

Поиск, существует ли заголовок в теге BS4

Я пытаюсь выяснить, существует ли конкретный заголовок внутри тега и если он не содержит его, напечатайте текст в переменной t. До сих пор я могу вытащить весь "тд" тега с помощью: for t in soup.findAll("td",{"class" : "someClass"}): но когда я испо…
24 фев '17 в 09:25
2 ответа

Установить bs4 на сервер pythonanywhere

Я попытался установить запросы и красивый модуль супа (bs4) на сервере pythonanywhere с помощью этой команды: pip3 install requests но он получил ошибку и сказал: требование уже выполнено... и получил адрес в директории dist-package. Я нашел там пак…
2 ответа

Получение определенного тега div с супом Beautful

Обычно я бы просто назвал div именем класса, но это не уникально. Единственная уникальная вещь, которую имеет тег div - это слово "data-sc-replace" сразу после div. Это сокращенный пример исходного кода <div data-sc-replace data-sc-slot="1234" cl…
29 апр '17 в 13:45
1 ответ

Не ясно, почему моя функция не возвращает ни одного

У меня очень ограниченный фон кодирования, за исключением некоторого Ruby, поэтому, если есть лучший способ сделать это, пожалуйста, дайте мне знать! По сути, у меня есть.txt файл, полный слов. Я хочу импортировать файл.txt и превратить его в список…
08 дек '15 в 06:59
1 ответ

Использование findAll в BS4 для создания списка

Начну с того, что я немного новичок в Python. Недавно я работал над ботом Slack и вот где я сейчас нахожусь. source = requests.get(url).content soup = BeautifulSoup(source, 'html.parser') price = soup.findAll("a", {"class":"pricing"})["quantity"] Во…
31 июл '17 в 08:25
1 ответ

Как удалить старые элементы из списка, который периодически меняется с веб-сайта?

Итак, у меня есть этот код, который печатает все продукты на adidas US, и я хочу, чтобы он проверял, когда новые продукты добавлялись в список, а затем распечатывал этот новый продукт. Прямо сейчас он может распечатать только весь список продуктов. …
22 май '17 в 04:55
1 ответ

BeautifulSoup (bs4) неправильно анализирует

Разбор этого образца документа с помощью bs4 из Python 2.7.6: <html> <body> <p>HTML allows omitting P end-tags. <p>Like that and this. <p>And this, too. <p>What happened?</p> <p>And can we <p>nes…
29 апр '15 в 20:45
1 ответ

Анализ неправильно сформированного HTML в Python дает ошибку индекса вне диапазона

Вот часть HTML, которую я пытаюсь проанализировать: <div class="syntax-container"> <h2>Official Syntax</h2> <ul> <li> <strong>Syntax: </strong> </p> <pre>text-align: start | end | left | right | …
02 фев '17 в 20:01
1 ответ

Как мне отформатировать содержимое следующей переменной в Python?

Итак, я поиграл с запросами и bs4 для проекта, над которым я работаю, и мне удалось вернуть следующее в переменной: "---------- Crossways Inn Withy Road West Huntspill Сомерсет TA93RA 01278783756 www.crosswaysinn.com ----------" Это было удалено с с…
29 окт '16 в 16:16
2 ответа

Как получить все элементы текста в последовательном порядке

Я получаю текст из таблицы, используя bs4 как soup = BeautifulSoup(html_text) table = soup.find("table", attrs={"class":"table_class"}) headings = [i.get_text() for i in table.find("tr").find_all("td")] Но как я могу иметь 2 findall в последовательн…
22 янв '16 в 03:51
2 ответа

Предотвратить ошибку 503 при очистке Google Scholar

Я написал следующий код для очистки данных со страницы безопасности Google Scholar., Однако всякий раз, когда я запускаю его, я получаю эту ошибку: Traceback (most recent call last): File "/Users/.../Documents/GS_Tag_Scraper/scrape-modified.py", lin…
26 дек '16 в 13:16
1 ответ

Преобразование объекта BeautifulSoup в список для извлечения данных

Из следующих двух строк кода Python я получаю следующий вывод html, который принадлежит классу 'bs4.BeautifulSoup' site_link = soup.find_all('a', string='Aberdeen')[0] row = site_link.findParent('td').findParent('tr').findAll('td') <html><b…
20 авг '17 в 09:11
2 ответа

Как запустить блок кода для всех элементов списка одновременно в Python

У меня есть список, в котором я хочу запустить блок кода, но список состоит из пары тысяч элементов, и для их перебора требуется слишком много времени. Есть ли способ, чтобы мой скрипт мог одновременно выполнять проверку каждого элемента в этом спис…
18 фев '17 в 04:39
1 ответ

Поиск термина на главном сайте Amazon (разбор)

Эй, ребята, так что главная панель поиска Амазонки имеет следующую информацию <input type="submit" class="nav-input" value="Go" tabindex="7"> и я думал о создании функции, которая будет смотреть на amazon.co.uk и находить этот тег, а также иск…
14 июн '16 в 15:50
1 ответ

Python - извлечение данных между конкретными узлами комментариев с BeautifulSoup 4

Нужно выбрать конкретные данные на сайте, такие как цены, информация о компании и т. Д. К счастью, дизайнер сайта добавил много тегов, таких как <!-- Begin Services Table --> ' desired data <!-- End Services Table --> Какой код мне нужен…
18 фев '17 в 01:20
1 ответ

Цикл bs4.element.tag

Я пытаюсь разобрать RSS-ленту для новостного сайта и вытащить дату публикации, заголовок, описание и ссылку на саму статью. Пока что с этими строками кода: with open('text.txt', 'r', encoding='utf-8') as f: soup = bs4.BeautifulSoup(f, 'lxml') all_it…
16 апр '17 в 16:27
1 ответ

Ошибка при попытке получить текст div

Я пытаюсь получить HTML / текст внутри div, Див имеет class математики Это код, который я использовал: from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver…
03 июн '17 в 01:37
3 ответа

Я не могу удалить номер телефона. Может кто-нибудь мне помочь

Вот содержание HTML этой части. <p class="contact-info " onclick="_ct('clntphn', 'lspg');"> <i class="contactNo spriteImg"></i> <span><a><b>+(91)-80-30805680</b></a></span> </p> Я попытался…
10 сен '17 в 16:29
2 ответа

Прочитать заголовок в HTML с помощью скрипта Python

У меня небольшая проблема, я хочу прочитать заголовок в HTML-документе, это работает до сих пор, что я получаю результат строки. Я использую библиотеку bs4 BeautifulSoup и urllib.request. На первом изображении видно, что в HTML-коде есть пробел, и э…
09 окт '16 в 13:19
1 ответ

Ошибка: объект 'Service' не имеет атрибута 'process' при использовании извлечения супа Python Beautiful с селеном

Я использую этот код для удаления некоторых данных по ссылке https://website.grader.com/results/www.dubizzle.com. Поскольку реальный скрипт с тегами, которые я хочу извлечь, загружает после 15 секунд загрузки, кто-то порекомендовал мне selenuim ввес…