Описание тега htmlcleaner

HtmlCleaner is open-source HTML parser written in Java.
1 ответ

HtmlCleaner возвращает "???" при разборе неанглийского веб-сайта

Когда я пытаюсь разобрать сайты вроде Google или Apple с помощью HtmlCleaner, все идет хорошо. Но когда я пытаюсь разобрать китайский веб-сайт, текст выглядит так: "???". В чем причина этой проблемы и как ее решить?
22 июл '11 в 08:10
0 ответов

Java HtmlCleaner очищает "_" (подчеркивание) атрибутов

Я использую http://htmlcleaner.sourceforge.net/. Моя проблема в том, что входной HTML имеет: <div _showid="asd" > Выход: <div showid="asd" > Я хочу предотвратить удаление "_" из атрибутов.
08 янв '15 в 09:18
0 ответов

HtmlCleaner XPath: получить содержимое узла без дочерних узлов

Я использую библиотеку HtmlCleaner для анализа html-файла и извлечения некоторых данных с помощью функции XPath. Это работает в основном довольно хорошо, но я не могу найти способ получить только текстовое содержимое узла (без содержимого дочерних у…
05 ноя '16 в 14:48
2 ответа

Java - особые символы HTML

Я хочу сделать запрос XPath для файла HTML. Вот мой код: public static void main(String args[]) { try{ /** We load the HTML file we want to parse */ BufferedReader br = new BufferedReader(new InputStreamReader (new FileInputStream("html_doyoubuzz.ht…
10 июн '13 в 07:53
3 ответа

Как добавить JAR (HTMLCleaner) в проект в Android Studio 1.1?

Я потратил бесчисленные часы, пытаясь добавить простой JAR (HTMLCleaner) к своему проекту в Android Stuio 1.1, но безрезультатно. Я импортировал JAR как модуль через интерфейс ("Файл"> "Новый модуль"> "Импорт JAR..."), добавил его в качестве зависим…
22 фев '15 в 06:19
1 ответ

Выражение Xpath в Android для узла с двумя дочерними текстовыми узлами

У меня есть образец XML (платформа Android), и я хотел бы знать самый простой и эффективный подход для получения значения узла текстового узла. <div id="myid"> <img src="..." width="1" height="2" alt="Text" /> <p><strong>Unwa…
20 сен '11 в 12:21
0 ответов

Разбор HTML с Java с помощью HTMLCleaner; Как я могу узнать символ "<" в атрибутах?

Я разбираю довольно плохой HTML-код. У меня был хороший успех, пока я не заметил, что с некоторыми элементами атрибуты содержат "<". Пример: &lt;a href="#Anchor-&lt;ht-42368"&gt;40&lt;/a&gt; будет результатом как &lt;a href="#Anchor-"&gt; &lt;ht-423…
14 авг '13 в 14:17
1 ответ

Общий xpath для доступа к определенному содержимому вкладки, если оно существует

Ниже представлены две веб-страницы с вкладками типа "Функции, приложения и преимущества", здесь я хочу извлечь содержимое только вкладки "Функции". Одна веб-страница, имеющая "Функции" на первой вкладке, и другая веб-страница имеют вкладку "Преимуще…
10 авг '15 в 08:24
2 ответа

Ошибка трассировки стека HTMLcleaner

Я работаю над проектом и столкнулся с проблемой. Я пытаюсь разобрать html с помощью html cleaner и затем использовать xpath для возврата строки. Я заставил его вернуть трассировку стека, если он обнаружил ошибку (что он и сделал). Я действительно по…
1 ответ

Найти Xpath элемента в содержимом HTML-страницы, используя Java

Я начинаю с выражения XPath, У меня ниже URL: http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None который содержит html pagecontent, используя следующие xpaths, он приводит к т…
2 ответа

Не могу разобрать HTML, используя HTMLCleaner

Я пытаюсь разобрать html по этой ссылке; http://thuoc.vn/Default.aspx?Mod=ViewDrugs&DrugsID;=52016 Я хочу прочитать некоторый контент в этом коде &lt;div class="tabContent" id="PillContent" style="display: block;"&gt; &lt;div class="headerinfo"&gt;C…
04 ноя '15 в 10:09
2 ответа

XPath выражение, две строки в одном узле

Я скачал HTML-форму, очистить ее с помощью htmlCleaner. Первоначально это выглядело так (сейчас оно хорошо сформировано, но я не знаю, как это показать, надеюсь, этого достаточно): ... &lt;form action="complete" method="POST" enctype="multipart/form…
27 мар '13 в 02:10
2 ответа

Аккуратный вывод HTML с использованием JavaScript

У меня есть большой кусок HTML. Чтобы он соответствовал определенному контейнеру, я обрезаю HTML (а не только текст), скажем, 200 символов. Очевидно, что некоторые из тегов останутся незамеченными в этом случае. Есть ли способ, кроме написания самог…
20 фев '12 в 20:42
4 ответа

Извлечение текста из HTML - Perl с использованием HTML::TreeBuilder

Я пытаюсь получить доступ к файлам.html и извлечь текст в &lt;p&gt; теги. По логике, мой код ниже должен работать. Используя HTML::TreeBuilder. Я анализирую HTML, а затем извлекать текст в &lt;p&gt; используя find_by_attribute("p"). Но мой скрипт вы…
1 ответ

Как получить значение элемента с помощью HTMLcleaner

Пытаясь получить значение элемента "a" и "span ". Использование HTMLCleaner. &lt;div class="info"&gt; &lt;p class="name"&gt; &lt;a href="http://www.zxdv.com/level/1/film/616/sr/1/"&gt;Tron&lt;/a&gt; &lt;span class="year"&gt;2001&lt;/span&gt; &lt;/p&…
26 окт '11 в 05:36
1 ответ

Как обрабатывать теги в HTMLCleaner?

При синтаксическом анализе с HTMLCleaner все теги "br" игнорируются. Я хотел бы знать, как я могу обрабатывать теги "br". Вот пример: &lt;p&gt;El tenista suizo &lt;b&gt;Roger Federer&lt;/b&gt;, número dos del mundo.&lt;br&gt;&lt;br&gt; "Quiero todav…
29 ноя '12 в 00:42
1 ответ

Проблема с разобранным текстом в HTMLCleaner - пробелы в начале текста

Я могу получить текст, используя HTMLCleaner с веб-сайта. Проблема в том, что когда я устанавливаю текст в TextView, он показывает начало текста с большим пробелом на нем. http://i50.tinypic.com/of3gif.png я пытался android:gravity но ничего не случ…
12 ноя '12 в 22:52
1 ответ

Получение узлов под конкретным элементом узла

Мне нужна помощь с моей проблемой здесь или хотя бы несколько советов. Я анализирую HTML-документ с использованием HTMLcleaner с использованием XPATH. У меня есть что-то вроде этого: &lt;html&gt; [code and other &lt;h4&gt; tags] &lt;h4&gt;Random nam…
23 сен '12 в 13:36
2 ответа

Как извлечь текст в тегах в htmlcleaner или jSoup

Я новичок в разработке для Android, не могу понять основы HtmlCleaner или jSoup. У меня есть страница, например &lt;html&gt;&lt;body&gt; ....(large code here).... &lt;b&gt;Hello World! &lt;/b&gt; ....(large code here).... &lt;/body&gt; &lt;/html&gt;…
03 фев '13 в 18:48
1 ответ

Удалить MS Word "HTML" с помощью PHP

Возможный дубликат: Какой лучший бесплатный способ очистить Word HTML? PHP для очистки вставил ввод Microsoft Я разрешаю клиентам вводить заметки в редакторе форматированного текста, и только недавно он обновился до ckEditor 3x, который по умолчанию…
09 июл '12 в 17:42