Описание тега tag-soup
TagSoup - SAX-совместимый синтаксический анализатор, написанный на Java, который анализирует HTML в том виде, в каком он находится в дикой природе.
0
ответов
Intellij не может разрешить пространство имен tagoup, даже если добавлена зависимость maven
У меня была проблема с TagSoup в одном из моих проектов: даже если я добавлю maven-зависимость к pom, IntelliJ 13 Ultimate все равно будет кричать, что не может разрешить пространство имен org.ccil.cowan.tagsoup.Parser (указывая на бит "ccil").Поэто…
03 дек '14 в 17:23
1
ответ
Разбор XHTML с помощью SAX для изменения только PCDATA
Я ищу пример использования синтаксического анализатора Sax для анализа строки XHTML и изменения каждого отдельного вхождения строки (s1) на (s2), если s1 находится в PCDATA, а не в атрибутах. Может кто-нибудь пролить свет здесь... Спасибо!
15 апр '11 в 06:05
2
ответа
Ошибка SAX: несовместимые типы: строка не может быть преобразована в InputSource
Соответствующий код; Barfs на создание экземпляра SAXSource: TransformerFactory factory = TransformerFactory.newInstance(); XMLReader xmlReader = XMLReaderFactory.createXMLReader("org.ccil.cowan.tagsoup.Parser"); Source input = new SAXSource(xmlRead…
04 янв '19 в 15:29
0
ответов
SAXParseException при использовании JAXB с HTML
Насколько я помню, есть возможность настроить xml парсер для использования tagsoup, но я не могу вспомнить синтаксис. С помощью JAXB Я ищу, чтобы убрать некоторые неприятные html, если возможно. пытаюсь сделать маршалл package my.books; import java.…
18 янв '19 в 05:21
1
ответ
Привет мир саксонский с Java
С использованием JAR файлы, установленные через apt для Saxon-HE а также tagsoup разбор html это однострочник как: thufir@dur:~/saxon$ thufir@dur:~/saxon$ java -cp /usr/share/java/Saxon-HE-9.8.0.14.jar:/usr/share/java/tagsoup-1.2.1.jar net.sf.saxon.…
03 янв '19 в 23:26
2
ответа
Как извлечь внутренний текст из разметки HTML?
У меня есть следующий код: import Text.HTML.TagSoup parseTags "<hello>my&amp;</world>" который дает вывод, как: [TagOpen "hello" [],TagText "my&",TagClose "world"], Но я хочу получить только [TagText "my&"], И я могу сделать …
06 дек '13 в 01:05
1
ответ
Укажите TagSoup Parser для использования версии HTML5
Я хочу, чтобы в настройках TagSoup использовались стандарты HTML5. Я использую Tagoup Parser, который придерживается HTML4, который не позволяет <div> внутри <a> тег. следовательно, синтаксический анализ неправильного HTML. Тем не менее,…
03 сен '15 в 12:03
1
ответ
Tagsoup, тег как текст к другому тегу
Привет, ребята, я надеюсь, что это сообщение найдет вас всех хорошо. Так что мои вопросы касаются tagoup, чего я хочу добиться, так это иметь тег как текст другого тега, в частности, я хочу <a href="http://twitter.com/devices" rel="nofollow">б…
05 авг '11 в 10:37
0
ответов
Не удается разрешить "HTMLSchema", "Parser", "ActivityThread" в android.text.HTML
Я действительно новичок в разработке приложений для Android Studio. У меня есть небольшое приложение с классом, который реализует Html.ImageGetter, и метод getDrawable(String source). Но метод не работает должным образом (он не получает никакого изо…
28 авг '18 в 21:49
13
ответов
Библиотека тегов PHP
Я терпеть не могу HTML, смешанный с кодом. Я едва могу посмотреть на один из этих шаблонов, не чувствуя тошноты. Я знаю, когда в вашем распоряжении целая армия "веб-дизайнеров", и вы являетесь единственным разработчиком, имеет смысл использовать как…
04 ноя '08 в 17:41
1
ответ
Конвертировать HTML в XHTML, используя TagSoup в Bash
У меня сложилось впечатление, что вы можете конвертировать HTML в XHTML с помощью TagSoup. У меня есть файл tagoup jar, сохраненный как tagsoup.jar я использовал следующую команду wget -O usa_stock.html "http://markets.usatoday.com/custom/usatoday-c…
03 дек '12 в 05:40
0
ответов
Парсинг HTML5 с помощью Enlive/Tagsoup/JSoup
HTML5 позволяет <meta> теги появляются в теле, но Enlive, похоже, не поддерживает это: (deftest test-enlive (testing "enlive" (let [html-as-string "<!DOCTYPE html><html lang=\"en\"><body><div><meta foo=\"bar\"><…
05 фев '15 в 03:08
2
ответа
Какой HTML-парсер я должен использовать?
Я работаю над продуктом, где мне нужно разобрать HTML-документ. Я искал Иерихон, TagSoup, Jsoup и Crawl4J. Какой синтаксический анализатор я должен использовать для анализа HTML, поскольку мне нужно запустить этот процесс в многопоточной среде с исп…
11 сен '12 в 11:36
2
ответа
Как можно использовать XPath, чтобы копаться в (чужом) плохо закодированном HTML?
Когда я выполняю этот код C#... using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Text.RegularExpressions; using System.Threading.…
02 июн '13 в 05:06
1
ответ
JDOM 1.1: дефис не является допустимым символом комментария
Я использую tagoup для очистки некоторого HTML-кода, который я извлекаю из Интернета, и получаю следующую ошибку при разборе страниц с комментариями: The data "- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -…
11 апр '10 в 17:14
1
ответ
Оберните тег вокруг простого текста HTML
У меня есть эта структура в моем HTML-документе: <p> "<em>You</em> began the evening well, Charlotte," said Mrs.&nbsp;Bennet with civil self–command to Miss Lucas. "<em>You</em> were Mr.&nbsp;Bingley's first cho…
22 мар '12 в 12:59
1
ответ
Разбор тегов с помощью TagSoup в Хаскеле
Я пытался узнать, как извлечь данные из файлов HTML в Haskell, и ударил стену. Я совсем не знаком с Haskell, и мои предыдущие знания были получены на Python (и BeatifulSoup для разбора HTML). Я использую TagSoup, чтобы посмотреть на мой HTML (кажетс…
16 мар '13 в 22:53
6
ответов
С Haskell, как мне обрабатывать большие объемы XML?
Я изучал дампы данных переполнения стека и, таким образом, использовал преимущества удобного XML и "разбора" с помощью регулярных выражений. Мои попытки с различными библиотеками XML на Haskell найти первый пост в порядке следования документов конкр…
18 фев '10 в 22:30
1
ответ
Песочница в HTML без iframe?
У меня есть страница с динамическим контентом, предоставленным сканером. Но иногда у этого контента возникают проблемы в HTML (без тега close, тега без открытия и т. Д.). Таким образом, этот неправильный контент нарушает всю страницу, потому что зак…
22 авг '12 в 22:25
1
ответ
Разбор XML с TagSoup: ошибка с длинными атрибутами?
Я пытаюсь проанализировать ужасный HTML с TagSoup, чтобы извлечь значение данного тега. Вот тег: <input type="hidden" name="hash_check" value="ffc39410ed8da309408a9382450ddc85" /> Я хочу получить значение атрибута "значение" ("ffc39410ed8da309…
29 авг '10 в 13:17