Описание тега htmlcleaner

Описание тега Вопросы с тегом

HtmlCleaner is open-source HTML parser written in Java.

1 ответ

HtmlCleaner возвращает "???" при разборе неанглийского веб-сайта

Когда я пытаюсь разобрать сайты вроде Google или Apple с помощью HtmlCleaner, все идет хорошо. Но когда я пытаюсь разобрать китайский веб-сайт, текст выглядит так: "???". В чем причина этой проблемы и как ее решить?

22 июл '11 в 08:10

0 ответов

Java HtmlCleaner очищает "_" (подчеркивание) атрибутов

Я использую http://htmlcleaner.sourceforge.net/. Моя проблема в том, что входной HTML имеет: <div _showid="asd" > Выход: <div showid="asd" > Я хочу предотвратить удаление "_" из атрибутов.

java html htmlcleaner

08 янв '15 в 09:18

0 ответов

HtmlCleaner XPath: получить содержимое узла без дочерних узлов

Я использую библиотеку HtmlCleaner для анализа html-файла и извлечения некоторых данных с помощью функции XPath. Это работает в основном довольно хорошо, но я не могу найти способ получить только текстовое содержимое узла (без содержимого дочерних у…

java xpath htmlcleaner

05 ноя '16 в 14:48

2 ответа

Java - особые символы HTML

Я хочу сделать запрос XPath для файла HTML. Вот мой код: public static void main(String args[]) { try{ /** We load the HTML file we want to parse */ BufferedReader br = new BufferedReader(new InputStreamReader (new FileInputStream("html_doyoubuzz.ht…

java html xpath utf-8 htmlcleaner

10 июн '13 в 07:53

3 ответа

Как добавить JAR (HTMLCleaner) в проект в Android Studio 1.1?

Я потратил бесчисленные часы, пытаясь добавить простой JAR (HTMLCleaner) к своему проекту в Android Stuio 1.1, но безрезультатно. Я импортировал JAR как модуль через интерфейс ("Файл"> "Новый модуль"> "Импорт JAR..."), добавил его в качестве зависим…

java android android-studio import htmlcleaner

22 фев '15 в 06:19

1 ответ

Выражение Xpath в Android для узла с двумя дочерними текстовыми узлами

У меня есть образец XML (платформа Android), и я хотел бы знать самый простой и эффективный подход для получения значения узла текстового узла. <div id="myid"> <img src="..." width="1" height="2" alt="Text" /> <p><strong>Unwa…

android xpath htmlcleaner

20 сен '11 в 12:21

0 ответов

Разбор HTML с Java с помощью HTMLCleaner; Как я могу узнать символ "<" в атрибутах?

Я разбираю довольно плохой HTML-код. У меня был хороший успех, пока я не заметил, что с некоторыми элементами атрибуты содержат "<". Пример: <a href="#Anchor-<ht-42368">40</a> будет результатом как <a href="#Anchor-"> <ht-423…

java html html-parsing htmlcleaner

14 авг '13 в 14:17

1 ответ

Общий xpath для доступа к определенному содержимому вкладки, если оно существует

Ниже представлены две веб-страницы с вкладками типа "Функции, приложения и преимущества", здесь я хочу извлечь содержимое только вкладки "Функции". Одна веб-страница, имеющая "Функции" на первой вкладке, и другая веб-страница имеют вкладку "Преимуще…

java xpath htmlcleaner

10 авг '15 в 08:24

2 ответа

Ошибка трассировки стека HTMLcleaner

Я работаю над проектом и столкнулся с проблемой. Я пытаюсь разобрать html с помощью html cleaner и затем использовать xpath для возврата строки. Я заставил его вернуть трассировку стека, если он обнаружил ошибку (что он и сделал). Я действительно по…

android string xpath android-asynctask htmlcleaner

11 янв '13 в 03:12

1 ответ

Найти Xpath элемента в содержимом HTML-страницы, используя Java

Я начинаю с выражения XPath, У меня ниже URL: http://www.newark.com/white-rodgers/586-902/contactor-spst-no-12vdc-200a-bracket/dp/35M1913?MER=PPSO_N_P_EverywhereElse_None который содержит html pagecontent, используя следующие xpaths, он приводит к т…

java xpath html-parser htmlcleaner jericho-html-parser

25 фев '15 в 07:41

2 ответа

Не могу разобрать HTML, используя HTMLCleaner

Я пытаюсь разобрать html по этой ссылке; http://thuoc.vn/Default.aspx?Mod=ViewDrugs&DrugsID;=52016 Я хочу прочитать некоторый контент в этом коде <div class="tabContent" id="PillContent" style="display: block;"> <div class="headerinfo">C…

java html parsing htmlcleaner

04 ноя '15 в 10:09

2 ответа

XPath выражение, две строки в одном узле

Я скачал HTML-форму, очистить ее с помощью htmlCleaner. Первоначально это выглядело так (сейчас оно хорошо сформировано, но я не знаю, как это показать, надеюсь, этого достаточно): ... <form action="complete" method="POST" enctype="multipart/form…

java android xpath htmlcleaner

27 мар '13 в 02:10

2 ответа

Аккуратный вывод HTML с использованием JavaScript

У меня есть большой кусок HTML. Чтобы он соответствовал определенному контейнеру, я обрезаю HTML (а не только текст), скажем, 200 символов. Очевидно, что некоторые из тегов останутся незамеченными в этом случае. Есть ли способ, кроме написания самог…

javascript html tidy htmlcleaner

20 фев '12 в 20:42

4 ответа

Извлечение текста из HTML - Perl с использованием HTML::TreeBuilder

Я пытаюсь получить доступ к файлам.html и извлечь текст в <p> теги. По логике, мой код ниже должен работать. Используя HTML::TreeBuilder. Я анализирую HTML, а затем извлекать текст в <p> используя find_by_attribute("p"). Но мой скрипт вы…

html perl text-extraction html-content-extraction htmlcleaner

19 дек '11 в 12:51

1 ответ

Как получить значение элемента с помощью HTMLcleaner

Пытаясь получить значение элемента "a" и "span ". Использование HTMLCleaner. <div class="info"> <p class="name"> <a href="http://www.zxdv.com/level/1/film/616/sr/1/">Tron</a> <span class="year">2001</span> </p&…

java android htmlcleaner

26 окт '11 в 05:36

1 ответ

Как обрабатывать теги в HTMLCleaner?

При синтаксическом анализе с HTMLCleaner все теги "br" игнорируются. Я хотел бы знать, как я могу обрабатывать теги "br". Вот пример: <p>El tenista suizo <b>Roger Federer</b>, número dos del mundo.<br><br> "Quiero todav…

android htmlcleaner

29 ноя '12 в 00:42

1 ответ

Проблема с разобранным текстом в HTMLCleaner - пробелы в начале текста

Я могу получить текст, используя HTMLCleaner с веб-сайта. Проблема в том, что когда я устанавливаю текст в TextView, он показывает начало текста с большим пробелом на нем. http://i50.tinypic.com/of3gif.png я пытался android:gravity но ничего не случ…

android htmlcleaner

12 ноя '12 в 22:52

1 ответ

Получение узлов под конкретным элементом узла

Мне нужна помощь с моей проблемой здесь или хотя бы несколько советов. Я анализирую HTML-документ с использованием HTMLcleaner с использованием XPATH. У меня есть что-то вроде этого: <html> [code and other <h4> tags] <h4>Random nam…

xpath htmlcleaner

23 сен '12 в 13:36

2 ответа

Как извлечь текст в тегах в htmlcleaner или jSoup

Я новичок в разработке для Android, не могу понять основы HtmlCleaner или jSoup. У меня есть страница, например <html><body> ....(large code here).... <b>Hello World! </b> ....(large code here).... </body> </html>…

android htmlcleaner

03 фев '13 в 18:48

1 ответ

Удалить MS Word "HTML" с помощью PHP

Возможный дубликат: Какой лучший бесплатный способ очистить Word HTML? PHP для очистки вставил ввод Microsoft Я разрешаю клиентам вводить заметки в редакторе форматированного текста, и только недавно он обновился до ckEditor 3x, который по умолчанию…

php html ms-word htmlcleaner

09 июл '12 в 17:42