Описание тега html-content-extraction
Методы прогнозирования / обнаружения определенного текста статьи и извлечения его из определенного документа.
3
ответа
Стратегия Python для извлечения текста из искаженных HTML-страниц
Я пытаюсь извлечь текст из произвольных HTML-страниц. На некоторых страницах (которые я не контролирую) есть искаженные HTML или сценарии, которые затрудняют это. Также я нахожусь в среде общего хостинга, поэтому я могу установить любую библиотеку P…
23 окт '09 в 18:11
3
ответа
Убрать HTML с веб-страницы и вычислить частоту слов?
В Groovy, как захватить веб-страницу и удалить теги HTML и т. Д., Оставив только текст документа? Я хотел бы, чтобы результаты были сброшены в коллекцию, чтобы я мог построить счетчик частоты слов. Наконец, позвольте мне еще раз упомянуть, что я хот…
16 окт '08 в 04:02
2
ответа
Как прочитать некоторую часть веб-страницы и сохранить ее текст в файле Excel
Я скачал какой-то веб-сайт с помощью программного обеспечения для копирования веб-сайтов. Я хочу извлечь некоторую информацию со всех страниц. Предположим, что есть много страниц продукта, и я хочу собрать только информацию о продукте со всех страни…
23 дек '12 в 09:14
2
ответа
RCurl getURLContent определяет тип контента через окончательное перенаправление
Это следующий вопрос к RCurl getURL с циклом - ссылка на PDF убивает цикл: У меня есть следующее getURL команда: require(RCurl) #set a bunch of options for curl options(RCurlOptions = list(cainfo = system.file("CurlSSL", "cacert.pem", package = "RCu…
24 авг '14 в 18:02
1
ответ
Определение того, какие функции JS и CSS используются для компонента на веб-странице
Меня попросили пересмотреть веб-сайт, содержащий 50 страниц HTML. Сайт использует EmberJS и использует простой HTML. Я не в курсе EmberJS. Поскольку код распространяется на несколько файлов JavaScript, CSS, HTML и handlebar. Его немного сложно понят…
04 сен '14 в 04:27
2
ответа
Использование MSXML2.XMLHTTP в Excel VBA для извлечения больших объемов текстовых данных с веб-сайта
Я пытаюсь загрузить исторические данные по ценам на акции из finance.yahoo.com для 1000 акций. Веб-сайт отображает данные только за 60 дней на одной странице, поэтому мне приходится просматривать период времени, который я загружаю, вместе с циклом д…
02 мар '14 в 08:10
1
ответ
Извлечь список текстов с помощью CasperJS
Я хочу извлечь текстовые значения из этого списка: <ul class="standardSuggestions"> <li class=""> <div id="idac"> <span class="email" id="idb7"><span>mail-fuer-chrisko</span>@<span>web.de</span></sp…
06 апр '16 в 07:13
3
ответа
Как получить значение строки, извлеченной с помощью jQuery
У меня есть таблица, и я извлекаю каждую строку таблицы, выполняя это: $(function(){ $('table tr').click(function(){ var $row = $(this).html(); alert($row); }); }); Это возвращает меня к следующей строке: <td>2</td> <td>Malcriado&l…
21 фев '11 в 17:28
1
ответ
Как я могу удалить теги вокруг фрагмента HTML?
Я создаю пользовательский фильтр для текста, используя синтаксис asciidoc для Drupal, используя модуль customfilter. Я заключаю его в теги [asciidoc][/asciidoc] и когда я запускаю его через asciidoctor Команда вывод заключен в <div class="paragra…
01 июл '17 в 16:06
3
ответа
Использование BeautifulSoup для поиска тега HTML, который содержит определенный текст
Я пытаюсь получить элементы в HTML-документе, которые содержат следующий шаблон текста: #\S{11} <h2> this is cool #12345678901 </h2> Таким образом, предыдущий будет соответствовать с помощью: soup('h2',text=re.compile(r' #\S{11}')) И рез…
14 май '09 в 21:46
2
ответа
HTTPBuilder - Как я могу получить HTML-контент веб-страницы?
Мне нужно извлечь HTML веб-страницы, которую я использую HTTPuilder в Groovy, чтобы получить следующее получить: def http = new HTTPBuilder('http://www.google.com/search') http.request(Method.GET) { requestContentType = ContentType.HTML response.suc…
25 июл '11 в 13:35
3
ответа
XPATH/PHP - умный способ сделать это?
У меня есть следующее: $html = "<a href="/path/to/page.html" title="Page name"><img src="path/to/image.jpg" alt="Alt name" />Page name</a>" Мне нужно извлечь атрибуты href и src и текст привязки Мое решение: $dom = new DOMDocument;…
13 дек '12 в 17:52
1
ответ
Лучший видимый контент-экстрактор
Поэтому моему приложению необходим видимый контент по заданному URL-адресу, например, текстовая часть, без HTML, без заголовка или данных нижнего колонтитула. На данный момент я использую Beautifulsoup и Bourpipe для получения того же. Но в некоторы…
02 янв '17 в 10:12
2
ответа
Как извлечь блоки текста из HTML-страницы?
Я хотел бы извлечь блоки текста с более чем 100 словами из большой HTML-страницы, используя PHP. Содержится ли текст в <p>...</p> не имеет значения Меня интересует только количество слов, которые составляют целостный текстовый блок, поэт…
08 мар '11 в 23:15
1
ответ
Получить URL-адрес последней страницы веб-страницы
$doc = new DOMDocument(); libxml_use_internal_errors(true); @$doc->loadHTMLFile('http://www.mudah.my/Malaysia/Electronics-3000/directd-for-sale?o=1&q=directd&th=1'); $xpath = new DOMXPath($doc); $nlist = $xpath->query('//*[@id="list_ad…
07 ноя '14 в 18:21
1
ответ
Как перемещаться по сайту и извлекать данные с помощью Python
Я не очень программист. Только учится. Я хочу извлечь (публичные) данные о выборах из избирательного органа моей страны, используя Python. Это для академических целей, но я также хочу развить свои навыки программирования. Разумеется, все данные, кот…
06 дек '15 в 17:29
0
ответов
Извлечение содержимого PDF вместе с изображением с помощью Apace Tika
Я пытаюсь извлечь полный PDF-файл, содержащий изображения и контент, используя apache-tika. Но это не берет pdf файл, который содержит и контент, и изображение. Он берет только текстовый pdf и отображает только контент. Можете ли вы предоставить код…
08 фев '19 в 04:22
1
ответ
Извлечь информацию с веб-сайта, используя Qt?
Я хотел бы извлечь "информацию" в теге "b" => 123456789 Это HTML-код: <body> <div> <table> <tbody> <tr> <td class="myclass"> <b>123456789</b> </td> </tr> </tbody> </table> </…
08 сен '13 в 20:07
5
ответов
Переменные сессии PHP
Пользователь нажимает на ссылку, которая откроет новую страницу (код ниже). Моя проблема в том, что, когда эта новая страница открыта, она создает новый идентификатор сессии. Как я могу предотвратить это? require_once('../../config.php'); //Database…
19 фев '10 в 16:41
1
ответ
Как я могу извлечь конкретный текст из внешней веб-страницы?
Я часами искал и пытался без особого успеха... Я хочу знать, как я могу извлечь определенные данные из внешней веб-страницы, например: Страница - www.siteName.com/A/B/C На странице: <td class="classA">Text1</td> <td><b class="cl…
13 апр '11 в 20:26