Описание тега beautifulsoup
Beautiful Soup - это пакет Python для анализа HTML/XML. Последней версией этого пакета является версия 4, импортированная как bs4.
2
ответа
Является ли это дезинфицирующее средство уязвимым для XSS?
Чтобы иметь простой и безопасный редактор для текстовых полей приложения django, у меня есть этот фрагмент для очистки входного HTML в коде django: from bs4 import BeautifulSoup def sanitize_html(value): tag_whitelist = ['img','b','strong','blockquo…
04 сен '15 в 08:00
2
ответа
lxml разделяет элементы, а Beautifulsoup - нет
lxml возвращает два элемента, а beautifulsoup возвращает только один. Это потому что <br/> там не должно быть и Beautifulsoup более терпим к плохим HTML? Есть ли лучший способ извлечь местоположение с помощью lxml? <br/> не всегда там fr…
06 ноя '16 в 12:04
0
ответов
Простой способ добавить комбинацию тегов, текста и ссылок в Beautifulsoup?
Я пытаюсь вычеркнуть ссылки с веб-сайта и добавить их в свой ранее существовавший список ссылок, так что пока я успешно справляюсь с этим, но я не могу сделать последний шаг, который добавляется к существующим ссылкам. Позвольте мне проиллюстрироват…
20 ноя '18 в 19:19
1
ответ
Python: сохранить страницу с большим количеством графики в виде файла.html
Я хочу сохранить посещенную страницу на диске в виде файла. Я использую urllib и URLOpener. Я выбираю сайт http://emma-watson.net/. Файл правильно сохраняется в формате.html, но когда я открыл файл, я заметил, что главное изображение сверху, которое…
22 июл '14 в 21:48
1
ответ
Найти теги, кроме тех, которые имеют атрибуты: BeautifulSoup
На этой странице, которую я пытаюсь очистить, я хочу исключить те, <td> это имеет атрибуты. <td > Нажмите здесь для получения полного списка кодов городов Аргентины </td> Я хотел бы знать, какую функцию / и использовать, чтобы искл…
06 июн '13 в 08:02
3
ответа
Извлечение href из Beautifulsoup: почему нет?
Я разбираю сайт, используя BeautifulSoup4. Код: for link in soup.find_all("div", {"class": "fl nav_left_2j"}): for item in link.find_all("li"): print(item) Получает меня: <li><a href="/web/20171221213907/http://ldzl.people.com.cn:80/dfzlk/f…
10 авг '18 в 14:02
1
ответ
Разбор HTML-элементов
Я пытаюсь перенести веб-форум, где у меня нет контроля над базой данных и т. Д., И использую Scrapy, чтобы собирать фрагменты. Он основан на старом форуме phpBB 2.x. Это не очень хорошо структурировано, поэтому несколько проблем. Теперь у меня есть …
28 сен '18 в 19:39
2
ответа
Невозможно войти на сайт используя Python
Я пытался использовать запросы Python и BeautifulSoup, чтобы попытаться написать веб-скребок. Я пытался зайти на этот сайт, используя несколько решений онлайн, но не смог этого сделать. Одна из причин этого заключается в том, что элементы формы не и…
22 фев '17 в 08:52
4
ответа
Проблема с заменой тегов на новую строку с помощью bs4
Проблема: я не могу заменить <br> теги с символом новой строки, используя Beautiful Soup 4. Код: Моя программа (соответствующая часть) в настоящее время выглядит for br in board.select('br'): br.replace_with('\n') но я также пытался board.find…
09 окт '18 в 01:03
1
ответ
Python - добавить значение str к определенным строкам в DataFrame
У меня есть значение, которое я сохранил в строке. Я хотел бы добавить это значение только к строкам, которые соответствуют определенным критериям, а не к каким-либо другим. На следующем рисунке показаны таблицы, которые мне нужно проанализировать. …
27 июн '17 в 18:52
1
ответ
Использование python urllib и красивого супа для извлечения информации с сайта html
Я пытаюсь извлечь некоторую информацию с этого сайта, т.е. строку, которая говорит: Шкала (Дева + GA + Shapley): 29 шт. / Угловая секунда = 0,029 кпк / угловая секунда = 1,72 кпк / угловая минута = 0,10 Мпк / градус но все после: переменно в зависим…
08 май '15 в 17:51
0
ответов
Утилизация с помощью python: перебор структуры сайта и список возвращаемых файлов
Вот в чем дело: мне нужно просмотреть все страницы веб-сайта, чтобы собрать некоторые данные... но я не знаю структуры имен папок / файлов на веб-сайте. Есть ли способ сделать запрос веб-сайта и вернуть список имен папок веб-сайта и имен файлов? Тог…
11 июн '18 в 18:28
1
ответ
Как сохранить текст с сайта, используя beautifulsoup в файл.txt?
Я новичок в Python и веб-соскоб. Я столкнулся с проблемой, и я не могу понять, как ее исправить. Я пытаюсь скопировать текст с веб-сайта, и когда я распечатываю все в терминал, он появляется нормально. Проблема в том, когда я пытаюсь сохранить его в…
05 авг '14 в 07:46
1
ответ
Как передать параметр в строку re.compile() в BeautifulSoup?
Я изучаю Beautifulsoup, и я хотел бы использовать регулярное выражение для фильтрации строк. Например, HTML-тег: <div>apple<\div> <div>android<\div> <div>windows<\div> Этот код будет работать: re_words = re.compil…
19 фев '16 в 14:03
2
ответа
BeautifulSoup HTML разбора таблицы
Я пытаюсь проанализировать информацию (HTML-таблицы) с этого сайта: http://www.511virginia.org/RoadConditions.aspx?j=All&r;=1 В настоящее время я использую BeautifulSoup, и код у меня выглядит следующим образом from mechanize import Browser from Bea…
13 янв '10 в 18:50
3
ответа
Как я могу остановить повторение строки в моем массиве?
У меня есть массив строк (биржевых символов), которые я удалил из твиттера. Я убираю символы биржевого тикера из фида одного человека, однако иногда фид будет иметь несколько твитов об одном и том же биржевом тикере и поэтому будет повторяться неско…
23 мар '18 в 22:47
2
ответа
BeautifulSoup получить URL из переменной JavaScript
Я пытаюсь получить URL из JavaScript через BeautifulSoup. У меня есть следующий источник JavaScript <script type="text/javascript"> var abc_url = "http://www2.example.com/ar/send/0?tk=13_s&id=12345678&l=9"; var etc = [ 'http://xyz.exam…
20 ноя '14 в 13:28
1
ответ
Модуль Python Объяснение
Может кто-нибудь объяснить, что я могу делать не так с модулями. Я пытаюсь использовать Beautifulsoup. Я ходил туда-сюда, устанавливая, удаляя beautifulsoup / bs4 Я делал это довольно много раз. Всякий раз, когда я загружаю этот файл, который исполь…
14 сен '15 в 19:58
2
ответа
Соскоб в Интернете - Получить текст из класса с помощью BeautifulSoup и Python?
Я хочу соскрести текст ("Показано 650 результатов") с веб-сайта. Результат, который я ищу: Result : Showing 650 results Ниже приведен HTML-код: <div class="jobs-search-results__count-sort pt3"> <div class="jobs-search-results__count-string …
01 авг '17 в 23:58
0
ответов
BeautifulSoup - выберите выход
Я пытаюсь извлечь несколько значений из строки, я могу получить вывод, но после нескольких часов тестирования и поиска ответа застрял на чем-то, что, вероятно, является основным. Для каждой строки я хотел бы получить "День", "Дата" и "Общее количест…
13 июн '18 в 07:13