Описание тега html-content-extraction

Описание тега Вопросы с тегом

Методы прогнозирования / обнаружения определенного текста статьи и извлечения его из определенного документа.

3 ответа

Стратегия Python для извлечения текста из искаженных HTML-страниц

Я пытаюсь извлечь текст из произвольных HTML-страниц. На некоторых страницах (которые я не контролирую) есть искаженные HTML или сценарии, которые затрудняют это. Также я нахожусь в среде общего хостинга, поэтому я могу установить любую библиотеку P…

23 окт '09 в 18:11

3 ответа

Убрать HTML с веб-страницы и вычислить частоту слов?

В Groovy, как захватить веб-страницу и удалить теги HTML и т. Д., Оставив только текст документа? Я хотел бы, чтобы результаты были сброшены в коллекцию, чтобы я мог построить счетчик частоты слов. Наконец, позвольте мне еще раз упомянуть, что я хот…

java html groovy text-extraction html-content-extraction

16 окт '08 в 04:02

2 ответа

Как прочитать некоторую часть веб-страницы и сохранить ее текст в файле Excel

Я скачал какой-то веб-сайт с помощью программного обеспечения для копирования веб-сайтов. Я хочу извлечь некоторую информацию со всех страниц. Предположим, что есть много страниц продукта, и я хочу собрать только информацию о продукте со всех страни…

java html webpage html-content-extraction

23 дек '12 в 09:14

2 ответа

RCurl getURLContent определяет тип контента через окончательное перенаправление

Это следующий вопрос к RCurl getURL с циклом - ссылка на PDF убивает цикл: У меня есть следующее getURL команда: require(RCurl) #set a bunch of options for curl options(RCurlOptions = list(cainfo = system.file("CurlSSL", "cacert.pem", package = "RCu…

r rcurl html-content-extraction geturl

24 авг '14 в 18:02

1 ответ

Определение того, какие функции JS и CSS используются для компонента на веб-странице

Меня попросили пересмотреть веб-сайт, содержащий 50 страниц HTML. Сайт использует EmberJS и использует простой HTML. Я не в курсе EmberJS. Поскольку код распространяется на несколько файлов JavaScript, CSS, HTML и handlebar. Его немного сложно понят…

javascript ember.js refactoring html-content-extraction

04 сен '14 в 04:27

2 ответа

Использование MSXML2.XMLHTTP в Excel VBA для извлечения больших объемов текстовых данных с веб-сайта

Я пытаюсь загрузить исторические данные по ценам на акции из finance.yahoo.com для 1000 акций. Веб-сайт отображает данные только за 60 дней на одной странице, поэтому мне приходится просматривать период времени, который я загружаю, вместе с циклом д…

excel vba msxml html-content-extraction

02 мар '14 в 08:10

1 ответ

Извлечь список текстов с помощью CasperJS

Я хочу извлечь текстовые значения из этого списка: <ul class="standardSuggestions"> <li class=""> <div id="idac"> <span class="email" id="idb7"><span>mail-fuer-chrisko</span>@<span>web.de</span></sp…

javascript web-scraping casperjs text-extraction html-content-extraction

06 апр '16 в 07:13

3 ответа

Как получить значение строки, извлеченной с помощью jQuery

У меня есть таблица, и я извлекаю каждую строку таблицы, выполняя это: $(function(){ $('table tr').click(function(){ var $row = $(this).html(); alert($row); }); }); Это возвращает меня к следующей строке: <td>2</td> <td>Malcriado&l…

jquery html-table html-content-extraction

21 фев '11 в 17:28

1 ответ

Как я могу удалить теги вокруг фрагмента HTML?

Я создаю пользовательский фильтр для текста, используя синтаксис asciidoc для Drupal, используя модуль customfilter. Я заключаю его в теги [asciidoc][/asciidoc] и когда я запускаю его через asciidoctor Команда вывод заключен в <div class="paragra…

php regex html-content-extraction

01 июл '17 в 16:06

3 ответа

Использование BeautifulSoup для поиска тега HTML, который содержит определенный текст

Я пытаюсь получить элементы в HTML-документе, которые содержат следующий шаблон текста: #\S{11} <h2> this is cool #12345678901 </h2> Таким образом, предыдущий будет соответствовать с помощью: soup('h2',text=re.compile(r' #\S{11}')) И рез…

python regex beautifulsoup html-content-extraction

14 май '09 в 21:46

2 ответа

HTTPBuilder - Как я могу получить HTML-контент веб-страницы?

Мне нужно извлечь HTML веб-страницы, которую я использую HTTPuilder в Groovy, чтобы получить следующее получить: def http = new HTTPBuilder('http://www.google.com/search') http.request(Method.GET) { requestContentType = ContentType.HTML response.suc…

html-content-extraction httpbuilder

25 июл '11 в 13:35

3 ответа

XPATH/PHP - умный способ сделать это?

У меня есть следующее: $html = "<a href="/path/to/page.html" title="Page name"><img src="path/to/image.jpg" alt="Alt name" />Page name</a>" Мне нужно извлечь атрибуты href и src и текст привязки Мое решение: $dom = new DOMDocument;…

php xpath html-content-extraction

13 дек '12 в 17:52

1 ответ

Лучший видимый контент-экстрактор

Поэтому моему приложению необходим видимый контент по заданному URL-адресу, например, текстовая часть, без HTML, без заголовка или данных нижнего колонтитула. На данный момент я использую Beautifulsoup и Bourpipe для получения того же. Но в некоторы…

web-scraping web-crawler screen-scraping html-content-extraction

02 янв '17 в 10:12

2 ответа

Как извлечь блоки текста из HTML-страницы?

Я хотел бы извлечь блоки текста с более чем 100 словами из большой HTML-страницы, используя PHP. Содержится ли текст в <p>...</p> не имеет значения Меня интересует только количество слов, которые составляют целостный текстовый блок, поэт…

php html html-content-extraction

08 мар '11 в 23:15

1 ответ

Получить URL-адрес последней страницы веб-страницы

$doc = new DOMDocument(); libxml_use_internal_errors(true); @$doc->loadHTMLFile('http://www.mudah.my/Malaysia/Electronics-3000/directd-for-sale?o=1&q=directd&th=1'); $xpath = new DOMXPath($doc); $nlist = $xpath->query('//*[@id="list_ad…

php html xpath html-content-extraction

07 ноя '14 в 18:21

1 ответ

Как перемещаться по сайту и извлекать данные с помощью Python

Я не очень программист. Только учится. Я хочу извлечь (публичные) данные о выборах из избирательного органа моей страны, используя Python. Это для академических целей, но я также хочу развить свои навыки программирования. Разумеется, все данные, кот…

python extract python-module data-extraction html-content-extraction

06 дек '15 в 17:29

0 ответов

Извлечение содержимого PDF вместе с изображением с помощью Apace Tika

Я пытаюсь извлечь полный PDF-файл, содержащий изображения и контент, используя apache-tika. Но это не берет pdf файл, который содержит и контент, и изображение. Он берет только текстовый pdf и отображает только контент. Можете ли вы предоставить код…

apache-tika html-content-extraction

08 фев '19 в 04:22

1 ответ

Извлечь информацию с веб-сайта, используя Qt?

Я хотел бы извлечь "информацию" в теге "b" => 123456789 Это HTML-код: <body> <div> <table> <tbody> <tr> <td class="myclass"> <b>123456789</b> </td> </tr> </tbody> </table> </…

html c++ qt html-content-extraction

08 сен '13 в 20:07

5 ответов

Переменные сессии PHP

Пользователь нажимает на ссылку, которая откроет новую страницу (код ниже). Моя проблема в том, что, когда эта новая страница открыта, она создает новый идентификатор сессии. Как я могу предотвратить это? require_once('../../config.php'); //Database…

php mysql session session-variables html-content-extraction

19 фев '10 в 16:41

1 ответ

Как я могу извлечь конкретный текст из внешней веб-страницы?

Я часами искал и пытался без особого успеха... Я хочу знать, как я могу извлечь определенные данные из внешней веб-страницы, например: Страница - www.siteName.com/A/B/C На странице: <td class="classA">Text1</td> <td><b class="cl…

extract html-content-extraction javascript-events

13 апр '11 в 20:26