Описание тега beautifulsoup

Описание тега Вопросы с тегом

Beautiful Soup - это пакет Python для анализа HTML/XML. Последней версией этого пакета является версия 4, импортированная как bs4.

2 ответа

Является ли это дезинфицирующее средство уязвимым для XSS?

Чтобы иметь простой и безопасный редактор для текстовых полей приложения django, у меня есть этот фрагмент для очистки входного HTML в коде django: from bs4 import BeautifulSoup def sanitize_html(value): tag_whitelist = ['img','b','strong','blockquo…

04 сен '15 в 08:00

2 ответа

lxml разделяет элементы, а Beautifulsoup - нет

lxml возвращает два элемента, а beautifulsoup возвращает только один. Это потому что <br/> там не должно быть и Beautifulsoup более терпим к плохим HTML? Есть ли лучший способ извлечь местоположение с помощью lxml? <br/> не всегда там fr…

python beautifulsoup lxml

06 ноя '16 в 12:04

0 ответов

Простой способ добавить комбинацию тегов, текста и ссылок в Beautifulsoup?

Я пытаюсь вычеркнуть ссылки с веб-сайта и добавить их в свой ранее существовавший список ссылок, так что пока я успешно справляюсь с этим, но я не могу сделать последний шаг, который добавляется к существующим ссылкам. Позвольте мне проиллюстрироват…

python beautifulsoup

20 ноя '18 в 19:19

1 ответ

Python: сохранить страницу с большим количеством графики в виде файла.html

Я хочу сохранить посещенную страницу на диске в виде файла. Я использую urllib и URLOpener. Я выбираю сайт http://emma-watson.net/. Файл правильно сохраняется в формате.html, но когда я открыл файл, я заметил, что главное изображение сверху, которое…

python python-2.7 beautifulsoup urllib urlopen

22 июл '14 в 21:48

1 ответ

Найти теги, кроме тех, которые имеют атрибуты: BeautifulSoup

На этой странице, которую я пытаюсь очистить, я хочу исключить те, <td> это имеет атрибуты. <td > Нажмите здесь для получения полного списка кодов городов Аргентины </td> Я хотел бы знать, какую функцию / и использовать, чтобы искл…

python beautifulsoup

06 июн '13 в 08:02

3 ответа

Извлечение href из Beautifulsoup: почему нет?

Я разбираю сайт, используя BeautifulSoup4. Код: for link in soup.find_all("div", {"class": "fl nav_left_2j"}): for item in link.find_all("li"): print(item) Получает меня: <li><a href="/web/20171221213907/http://ldzl.people.com.cn:80/dfzlk/f…

python web-scraping beautifulsoup

10 авг '18 в 14:02

1 ответ

Разбор HTML-элементов

Я пытаюсь перенести веб-форум, где у меня нет контроля над базой данных и т. Д., И использую Scrapy, чтобы собирать фрагменты. Он основан на старом форуме phpBB 2.x. Это не очень хорошо структурировано, поэтому несколько проблем. Теперь у меня есть …

beautifulsoup scrapy

28 сен '18 в 19:39

2 ответа

Невозможно войти на сайт используя Python

Я пытался использовать запросы Python и BeautifulSoup, чтобы попытаться написать веб-скребок. Я пытался зайти на этот сайт, используя несколько решений онлайн, но не смог этого сделать. Одна из причин этого заключается в том, что элементы формы не и…

python web-scraping beautifulsoup

22 фев '17 в 08:52

4 ответа

Проблема с заменой тегов на новую строку с помощью bs4

Проблема: я не могу заменить <br> теги с символом новой строки, используя Beautiful Soup 4. Код: Моя программа (соответствующая часть) в настоящее время выглядит for br in board.select('br'): br.replace_with('\n') но я также пытался board.find…

beautifulsoup

09 окт '18 в 01:03

1 ответ

Python - добавить значение str к определенным строкам в DataFrame

У меня есть значение, которое я сохранил в строке. Я хотел бы добавить это значение только к строкам, которые соответствуют определенным критериям, а не к каким-либо другим. На следующем рисунке показаны таблицы, которые мне нужно проанализировать. …

python pandas dataframe email beautifulsoup

27 июн '17 в 18:52

1 ответ

Использование python urllib и красивого супа для извлечения информации с сайта html

Я пытаюсь извлечь некоторую информацию с этого сайта, т.е. строку, которая говорит: Шкала (Дева + GA + Shapley): 29 шт. / Угловая секунда = 0,029 кпк / угловая секунда = 1,72 кпк / угловая минута = 0,10 Мпк / градус но все после: переменно в зависим…

python beautifulsoup urllib

08 май '15 в 17:51

0 ответов

Утилизация с помощью python: перебор структуры сайта и список возвращаемых файлов

Вот в чем дело: мне нужно просмотреть все страницы веб-сайта, чтобы собрать некоторые данные... но я не знаю структуры имен папок / файлов на веб-сайте. Есть ли способ сделать запрос веб-сайта и вернуть список имен папок веб-сайта и имен файлов? Тог…

javascript python-2.7 beautifulsoup mining

11 июн '18 в 18:28

1 ответ

Как сохранить текст с сайта, используя beautifulsoup в файл.txt?

Я новичок в Python и веб-соскоб. Я столкнулся с проблемой, и я не могу понять, как ее исправить. Я пытаюсь скопировать текст с веб-сайта, и когда я распечатываю все в терминал, он появляется нормально. Проблема в том, когда я пытаюсь сохранить его в…

python web-scraping beautifulsoup text mechanize

05 авг '14 в 07:46

1 ответ

Как передать параметр в строку re.compile() в BeautifulSoup?

Я изучаю Beautifulsoup, и я хотел бы использовать регулярное выражение для фильтрации строк. Например, HTML-тег: <div>apple<\div> <div>android<\div> <div>windows<\div> Этот код будет работать: re_words = re.compil…

python regex python-2.7 beautifulsoup

19 фев '16 в 14:03

2 ответа

BeautifulSoup HTML разбора таблицы

Я пытаюсь проанализировать информацию (HTML-таблицы) с этого сайта: http://www.511virginia.org/RoadConditions.aspx?j=All&r;=1 В настоящее время я использую BeautifulSoup, и код у меня выглядит следующим образом from mechanize import Browser from Bea…

python beautifulsoup html-table html-parsing mechanize

13 янв '10 в 18:50

3 ответа

Как я могу остановить повторение строки в моем массиве?

У меня есть массив строк (биржевых символов), которые я удалил из твиттера. Я убираю символы биржевого тикера из фида одного человека, однако иногда фид будет иметь несколько твитов об одном и том же биржевом тикере и поэтому будет повторяться неско…

python arrays beautifulsoup

23 мар '18 в 22:47

2 ответа

BeautifulSoup получить URL из переменной JavaScript

Я пытаюсь получить URL из JavaScript через BeautifulSoup. У меня есть следующий источник JavaScript <script type="text/javascript"> var abc_url = "http://www2.example.com/ar/send/0?tk=13_s&id=12345678&l=9"; var etc = [ 'http://xyz.exam…

regex beautifulsoup

20 ноя '14 в 13:28

1 ответ

Модуль Python Объяснение

Может кто-нибудь объяснить, что я могу делать не так с модулями. Я пытаюсь использовать Beautifulsoup. Я ходил туда-сюда, устанавливая, удаляя beautifulsoup / bs4 Я делал это довольно много раз. Всякий раз, когда я загружаю этот файл, который исполь…

beautifulsoup module importerror

14 сен '15 в 19:58

2 ответа

Соскоб в Интернете - Получить текст из класса с помощью BeautifulSoup и Python?

Я хочу соскрести текст ("Показано 650 результатов") с веб-сайта. Результат, который я ищу: Result : Showing 650 results Ниже приведен HTML-код: <div class="jobs-search-results__count-sort pt3"> <div class="jobs-search-results__count-string …

python web-scraping beautifulsoup

01 авг '17 в 23:58

0 ответов

BeautifulSoup - выберите выход

Я пытаюсь извлечь несколько значений из строки, я могу получить вывод, но после нескольких часов тестирования и поиска ответа застрял на чем-то, что, вероятно, является основным. Для каждой строки я хотел бы получить "День", "Дата" и "Общее количест…

web-scraping select beautifulsoup

13 июн '18 в 07:13