Описание тега html-parser

1 ответ

JSoup проверяет наличие тегов <HTML>,<HEAD> и <BODY>

Привет я использую JSoup для разбора файла HTML. После анализа я хочу проверить, содержит ли файл тег. Я использую следующий код, чтобы проверить это, htmlDom = parser.parse("&lt;p&gt;My First Heading&lt;/p&gt;&lt;a href=\"www.google.com\"&gt;clk&lt…
07 авг '14 в 19:29
2 ответа

Использовать HtmlTidy Managed для части HTML

Я использую эту библиотеку обертку для HtmlTidy в.net https://github.com/markbeaton/TidyManaged это простой пример: using System; using TidyManaged; public class Test { public static void Main(string[] args) { using (Document doc = Document.FromStri…
27 мар '14 в 10:28
1 ответ

Ошибка при использовании HTML-парсера

Я пытаюсь использовать Objective-C -HMTL Parser (https://github.com/zootreeves/Objective-C-HMTL-Parser). Я тщательно следовал всем инструкциям и в новом проекте работает нормально, но когда я пытаюсь использовать его в другом, я получаю следующие ош…
07 июл '12 в 10:53
2 ответа

Как пропустить повторяющийся контент из поиска с помощью простого HTML-парсера DOM

Я хочу пропустить определенный повторяющийся контент со страницы HTML, используя простой класс HTML dom. Предположим, как вы видите по этой ссылке: http://www.gutenberg.org/wiki/Category:Agriculture_Bookshelf Forestry приходит 2 раза. Один в верхней…
1 ответ

Альтернативы Html.fromHtml?

Я пытаюсь сделать просмотр списка, который имеет элементы TextView, каждый из которых содержит SpannableString. Содержимое этих TextView извлекается из ArrayList в разметке Html и преобразуется в SpannableStrings с использованием Html.fromHtml. Тепе…
1 ответ

Вложенный div innertext возвращает ссылку на объект, не заданную для экземпляра объекта в HtmlAgilitypack

Я пытаюсь получить значение вложенного div, используя HtmlAgilitypackМой HTML-код выглядит так: вот мой код: var val = resultat1.DocumentNode.SelectSingleNode("//div[@class='journal-content-article']/div[@class='news_page max']/div[@class='news_page…
17 янв '16 в 06:11
3 ответа

Сброс переменной класса Python?

У меня возникла эта проблема сейчас, поэтому у меня есть HTMLParser, использующий класс библиотеки HTMLParser, как это class MyHTMLParser(HTMLParser): temp = '' def handle_data(self, data): MyHTMLParser.temp += data Мне нужна временная переменная, п…
25 окт '18 в 22:50
1 ответ

Разбор HTML в FLUTTER для разработки под Android / iOS

Мы знаем, что есть библиотека Jsoup для разработчиков Android для анализа html-текста, кода и т. Д. Поскольку я новичок в разработке мобильных приложений для флаттера, я хочу знать, есть ли какая-либо библиотека, например Jsoup, для анализа html-тек…
11 авг '18 в 10:23
1 ответ

Разбор HTML с Nokogiri

У меня есть HTML-документ, который мне нужно очистить для определенных строк. Документ представляет собой плейлист YouTube. Например: require 'open-uri' doc = Nokogiri::HTML(open("https://www.youtube.com/playlist?list=PL11CE9468C379D2C8")) Когда я п…
06 июн '14 в 17:47
1 ответ

Обновить текст на HTML-странице с помощью парсера

Я всегда получаю ошибку в middlebitparent.replaceWith(nodespan);в следующем коде, который написан в jsoup для навигации по документу HTML и изменения цвета фона слова "В" Elements divs= doc.select("div"); for(Element div : divs) { if (div.hasText())…
1 ответ

Как загрузить HTML из URL?

У меня есть проблема, и если кто-то может мне помочь, пожалуйста. Я хочу загрузить HTML. var webGet = new HtmlWeb(); var doc = webGet.Load(@"https://example.com/search_engine/jobs.cgi?owner=5027409&amp;ownertype=fair&amp;posting_code=612"); Я исполь…
1 ответ

Я могу использовать jsoup, чтобы сделать скриншот экрана

Я новичок в Jsoup. Я полагаю, что нужно сделать скриншот для получения иерархии ссылок. Я могу получить ссылки с первой страницы, но мне нужно знать, как я могу пойти глубже и получить ссылку на каждую ссылку. Это то, что я имею до сих пор. Он распе…
13 июн '13 в 19:10
0 ответов

Почему функция extractAllNodesThatMatch в htmlparser может использоваться только один раз?

Я использую htmlparser для анализа веб-данных книги в библиотеке. фрагмент кода, как показано ниже NodeList nodes=parser.extractAllNodesThatMatch(filter); for(int i = 0;i &lt; nodes.size();i++) { Bookinfo cur_bki=new Bookinfo(); Parser getboolinfo=n…
10 мар '15 в 17:26
0 ответов

Beautifulsoup избавиться от встроенных JS и CSS в HTML

Мне нужно разобрать несколько HTML через requests.get(), Мне просто нужно сохранить содержимое страницы и избавиться от встроенного JavaScript и CSS. Я видел следующий пост, но решение не работает для меня.http://stackru.com/questions/14344476/how-t…
03 окт '16 в 23:44
1 ответ

Получение ошибки: имя 'html' не определено при попытке реализовать простую программу для цикла ответа HTTP-запроса с использованием библиотеки urllib в python.

Я изучаю библиотеку BeautifulSoup на python и наткнулся на библиотеку urllib, чтобы лучше понять цикл HTTP-запрос-ответ. В следующем коде я пытаюсь удалить все теги привязки, которые есть на этой HTML-странице, но получаю сообщение об ошибке: NameEr…
21 дек '18 в 09:07
1 ответ

Как получить ссылки из результатов поиска Google HTML в C#?

Я получил этот код, который приносит мне результаты поиска от Google в виде строки HTML: WebClient webClient = new WebClient(); string htmlString = webClient.DownloadString("http://www.google.com/search?q=" + searchQuery); Есть идеи, как извлечь из …
16 мар '15 в 05:13
0 ответов

Как очистить данные из <body> HTML-страниц с помощью Lucidworks Fusion 4.1

Я использую веб-коннектор для чистки данных с сайта ( https://www.silverhavenjewellery.com/categories/silver-jewellery-designs.html). Веб-страница содержит множество элементов, вложенных в тег body (div, ul, li и т. Д.). Из документации Lucidworks я…
1 ответ

Хотите добавить строку в определенном месте в HTML-код

Я хочу добавить строку кода в HTML-код в определенном месте. Я хочу знать, какая библиотека будет более полезной BeautifulSoup или HTML-парсер? Я просто хочу добавить новую строку, а затем написать строку кода там. Пожалуйста, помогите. Мне нужна ре…
21 янв '19 в 12:45
2 ответа

python beautifulsoup: lxml html.parser

Я должен использовать BeautifulSoup, но я не знаю, какой парсер я должен взять. Я колеблюсь между lxml и html.parser, или почему не оба. Как узнать, соответствует ли веб-страница lxml? Как узнать, является ли веб-страница совместимой с html-парсером…
20 июн '16 в 23:34
1 ответ

Ускорение работы селекторов CsQuery с использованием подстроки html

Я хочу разобрать некоторые сложные / тяжелые страницы HTML. Недавно я прочитал о CsQuery и проверил сравнение производительности CsQuery Vs Html Agility Pack и Fizzler. Согласно этим тестам, CsQuery оказывается медленнее при создании DOM из-за созда…