Описание тега htmlcleaner
HtmlCleaner is open-source HTML parser written in Java.
1
ответ
HtmlCleaner возвращает "???" при разборе неанглийского веб-сайта
Когда я пытаюсь разобрать сайты вроде Google или Apple с помощью HtmlCleaner, все идет хорошо. Но когда я пытаюсь разобрать китайский веб-сайт, текст выглядит так: "???". В чем причина этой проблемы и как ее решить?
22 июл '11 в 08:10
0
ответов
Java HtmlCleaner очищает "_" (подчеркивание) атрибутов
Я использую http://htmlcleaner.sourceforge.net/. Моя проблема в том, что входной HTML имеет: <div _showid="asd" > Выход: <div showid="asd" > Я хочу предотвратить удаление "_" из атрибутов.
08 янв '15 в 09:18
0
ответов
HtmlCleaner XPath: получить содержимое узла без дочерних узлов
Я использую библиотеку HtmlCleaner для анализа html-файла и извлечения некоторых данных с помощью функции XPath. Это работает в основном довольно хорошо, но я не могу найти способ получить только текстовое содержимое узла (без содержимого дочерних у…
05 ноя '16 в 14:48
2
ответа
Java - особые символы HTML
Я хочу сделать запрос XPath для файла HTML. Вот мой код: public static void main(String args[]) { try{ /** We load the HTML file we want to parse */ BufferedReader br = new BufferedReader(new InputStreamReader (new FileInputStream("html_doyoubuzz.ht…
10 июн '13 в 07:53
3
ответа
Как добавить JAR (HTMLCleaner) в проект в Android Studio 1.1?
Я потратил бесчисленные часы, пытаясь добавить простой JAR (HTMLCleaner) к своему проекту в Android Stuio 1.1, но безрезультатно. Я импортировал JAR как модуль через интерфейс ("Файл"> "Новый модуль"> "Импорт JAR..."), добавил его в качестве зависим…
22 фев '15 в 06:19
1
ответ
Выражение Xpath в Android для узла с двумя дочерними текстовыми узлами
У меня есть образец XML (платформа Android), и я хотел бы знать самый простой и эффективный подход для получения значения узла текстового узла. <div id="myid"> <img src="..." width="1" height="2" alt="Text" /> <p><strong>Unwa…
20 сен '11 в 12:21
0
ответов
Разбор HTML с Java с помощью HTMLCleaner; Как я могу узнать символ "<" в атрибутах?
Я разбираю довольно плохой HTML-код. У меня был хороший успех, пока я не заметил, что с некоторыми элементами атрибуты содержат "<". Пример: <a href="#Anchor-<ht-42368">40</a> будет результатом как <a href="#Anchor-"> <ht-423…
14 авг '13 в 14:17
1
ответ
Общий xpath для доступа к определенному содержимому вкладки, если оно существует
Ниже представлены две веб-страницы с вкладками типа "Функции, приложения и преимущества", здесь я хочу извлечь содержимое только вкладки "Функции". Одна веб-страница, имеющая "Функции" на первой вкладке, и другая веб-страница имеют вкладку "Преимуще…
10 авг '15 в 08:24
2
ответа
Ошибка трассировки стека HTMLcleaner
Я работаю над проектом и столкнулся с проблемой. Я пытаюсь разобрать html с помощью html cleaner и затем использовать xpath для возврата строки. Я заставил его вернуть трассировку стека, если он обнаружил ошибку (что он и сделал). Я действительно по…
11 янв '13 в 03:12
1
ответ
Найти Xpath элемента в содержимом HTML-страницы, используя Java
Я начинаю с выражения XPath, У меня ниже URL: http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None который содержит html pagecontent, используя следующие xpaths, он приводит к т…
25 фев '15 в 07:41
2
ответа
Не могу разобрать HTML, используя HTMLCleaner
Я пытаюсь разобрать html по этой ссылке; http://thuoc.vn/Default.aspx?Mod=ViewDrugs&DrugsID;=52016 Я хочу прочитать некоторый контент в этом коде <div class="tabContent" id="PillContent" style="display: block;"> <div class="headerinfo">C…
04 ноя '15 в 10:09
2
ответа
XPath выражение, две строки в одном узле
Я скачал HTML-форму, очистить ее с помощью htmlCleaner. Первоначально это выглядело так (сейчас оно хорошо сформировано, но я не знаю, как это показать, надеюсь, этого достаточно): ... <form action="complete" method="POST" enctype="multipart/form…
27 мар '13 в 02:10
2
ответа
Аккуратный вывод HTML с использованием JavaScript
У меня есть большой кусок HTML. Чтобы он соответствовал определенному контейнеру, я обрезаю HTML (а не только текст), скажем, 200 символов. Очевидно, что некоторые из тегов останутся незамеченными в этом случае. Есть ли способ, кроме написания самог…
20 фев '12 в 20:42
4
ответа
Извлечение текста из HTML - Perl с использованием HTML::TreeBuilder
Я пытаюсь получить доступ к файлам.html и извлечь текст в <p> теги. По логике, мой код ниже должен работать. Используя HTML::TreeBuilder. Я анализирую HTML, а затем извлекать текст в <p> используя find_by_attribute("p"). Но мой скрипт вы…
19 дек '11 в 12:51
1
ответ
Как получить значение элемента с помощью HTMLcleaner
Пытаясь получить значение элемента "a" и "span ". Использование HTMLCleaner. <div class="info"> <p class="name"> <a href="http://www.zxdv.com/level/1/film/616/sr/1/">Tron</a> <span class="year">2001</span> </p&…
26 окт '11 в 05:36
1
ответ
Как обрабатывать теги в HTMLCleaner?
При синтаксическом анализе с HTMLCleaner все теги "br" игнорируются. Я хотел бы знать, как я могу обрабатывать теги "br". Вот пример: <p>El tenista suizo <b>Roger Federer</b>, número dos del mundo.<br><br> "Quiero todav…
29 ноя '12 в 00:42
1
ответ
Проблема с разобранным текстом в HTMLCleaner - пробелы в начале текста
Я могу получить текст, используя HTMLCleaner с веб-сайта. Проблема в том, что когда я устанавливаю текст в TextView, он показывает начало текста с большим пробелом на нем. http://i50.tinypic.com/of3gif.png я пытался android:gravity но ничего не случ…
12 ноя '12 в 22:52
1
ответ
Получение узлов под конкретным элементом узла
Мне нужна помощь с моей проблемой здесь или хотя бы несколько советов. Я анализирую HTML-документ с использованием HTMLcleaner с использованием XPATH. У меня есть что-то вроде этого: <html> [code and other <h4> tags] <h4>Random nam…
23 сен '12 в 13:36
2
ответа
Как извлечь текст в тегах в htmlcleaner или jSoup
Я новичок в разработке для Android, не могу понять основы HtmlCleaner или jSoup. У меня есть страница, например <html><body> ....(large code here).... <b>Hello World! </b> ....(large code here).... </body> </html>…
03 фев '13 в 18:48
1
ответ
Удалить MS Word "HTML" с помощью PHP
Возможный дубликат: Какой лучший бесплатный способ очистить Word HTML? PHP для очистки вставил ввод Microsoft Я разрешаю клиентам вводить заметки в редакторе форматированного текста, и только недавно он обновился до ckEditor 3x, который по умолчанию…
09 июл '12 в 17:42