Описание тега screen-scraping

Очистка экрана, также известная как веб-очистка или очистка данных, - это программный метод, используемый для сбора и анализа информации из пользовательских интерфейсов. Если ваш вопрос касается сбора данных с веб-сайтов или веб-API, используйте вместо него тег [web-scraping].
1 ответ

Множественная форма отправки и анализа данных со страницы результатов

У меня есть веб-страница, которая имеет несколько форм. Каждая отправленная форма открывает новую страницу. Я пытаюсь получить данные с этих страниц. С помощью приведенного ниже кода я могу открывать страницы, но данные извлекаются со страницы формы…
07 мар '14 в 06:50
2 ответа

Оценить JavaScript на локальный HTML-файл (без браузера)

Это часть проекта, над которым я работаю. Я хочу автоматизировать сайт Sharepoint, особенно для извлечения данных из базы данных, к которой у меня и моих коллег есть только внешний доступ. Я, наконец, сумел получить механизм (в python) для достижени…
04 май '13 в 14:16
2 ответа

Нужно получить данные с веб-сайта... веб-запрос? макрос?

У меня есть список всех DOT # (отдел транс.) В стране. Я хочу узнать дату вступления в силу страхования для каждой из этих компаний. Если вы перейдете на http://li-public.fmcsa.dot.gov/ -> "continue" ->, то в раскрывающемся списке выберите "поиск оп…
2 ответа

Выберите xpath данных в теге, используя lxml

Я пытаюсь выбрать "(6)" в теге ниже: <a class="itemRating" href="http://www.newegg.com/Product/ProductReview.aspx?Item=N82E16834200347" title="Rating + 4"> <span class="eggs r4"> </span> (6) </a> Xpath, который я наз…
08 фев '12 в 04:58
2 ответа

Возникли проблемы с использованием CURL и PHP для получения результатов поиска Google через прокси

Этот скрипт прекрасно работает при получении google.com, но не с google.com/search?q=test. Когда я не использую CURLOPT_FOLLOWLOCATION, я получаю 302 Move. Когда я его использую, я получаю страницу с просьбой ввести капчу. Я пробовал несколько разли…
22 дек '11 в 21:33
1 ответ

Снимок экрана веб-сервера с использованием его IP-адреса вместо имени домена

Это возможно? Он работает, когда baseUrl = " http://mashable.com/", но не работает, когда я даю ему IP-адрес. <script src='https://raw.github.com/padolsey/jQuery-Plugins/master/cross-domain-ajax/jquery.xdomainajax.js'></script> <scrip…
25 мар '15 в 21:22
1 ответ

Продвинутая очистка экрана?

Я видел несколько сайтов для игровых роботов, которые будут использоваться в играх на Yahoo, Pogo и т. Д. Что вы используете / как вы пишете программное обеспечение, которое обнаруживает элементы на экране? Как вы можете, например, в java, обнаружит…
07 июн '13 в 00:41
1 ответ

Sed: выскабливание ряда чисел

Можно ли указать диапазон чисел (1-31) в пределах того места, где я соответствую <strong> тег? Тег в выводе выглядит как: <strong>21. Infinite Safari Balls</strong>, отредактированный #!/bin/bash wget -q -O - 'goo.gl/vfYA94' | \ sed -…
01 июл '14 в 23:29
2 ответа

Удалите ненужные значения - очистка с помощью Beautifulsoup

onclick="try{appendPropertyPosition(this,'B10016735','9176967671, 9176964646, 8939721171','44-22583703','Dealer','manesh');jsb9onUnloadTracking();jsevt.stopBubble(event);}catch(e){};" Так много onclick атрибуты на странице HTML. Из вышесказанного on…
16 сен '13 в 13:42
1 ответ

Захват экрана Flash

Есть ли способ воспроизвести SWF и сделать снимок экрана в безголовой среде? Спасибо!
26 мар '10 в 00:08
1 ответ

Механизация и Nokogiri печать на терминал вместо файла

Понятия не имею... Это ведет себя странно, и я хочу получить ответ на терминал вместо файла... Но я никогда не просил, чтобы результаты были переданы на терминал. Странно.. Как я могу получить результаты из Mechanize / Nokogiri, напечатанные в файл?…
3 ответа

Не удается получить XPath для WhitePages.com?

Я пытаюсь ввести имя и почтовый индекс в "People" а также "Where" поля на http://whitepages.com используя Selenium (на Java). Я пытался использовать .//*[@id='who'] а также .//*[@id='where'] соответственно - однако Selenium выдает ошибку каждый раз,…
3 ответа

OpenGL/D3D: Как получить скриншот игры, работающей в полноэкранном режиме в Windows?

Предположим, у меня есть игра OpenGL, работающая в полноэкранном режиме (Left 4 Dead 2). Я хотел бы программно получить снимок экрана, а затем записать его в видеофайл. Я пробовал методы GDI, D3D и OpenGL (например, glReadPixels) и либо получаю пуст…
15 авг '10 в 08:37
2 ответа

Модуль bwshare и очистка PHP

Я написал скрипт загрузки списка страниц с сайта. Время от времени я получаю следующую ошибку (количество секунд является переменным): Модуль bwshare отклонит ваши запросы в течение следующих 7 секунд. Вы загрузили данные слишком быстро. Я обнаружил…
25 май '12 в 11:52
1 ответ

Очистка данных iframe в R

Я пытаюсь очистить веб-страницу, используя r, но проблема в том, что очищенный HTML-файл содержит только ссылку тега iframe ( http://mpe.motorolasolutions.com/?loc=US-EN&dest;=Channel&_ga=1.41985443.782208401.1466659393). Есть ли способ получить дан…
28 июн '16 в 06:39
1 ответ

ValueError: может анализировать только строки Python

Я пытаюсь собрать кучу ссылок, используя xpath, которые нужно удалить со следующей страницы, однако, я продолжаю получать сообщение об ошибке, которое может анализировать только строки? Я попытался посмотреть на тип lk, и это была строка после того,…
19 окт '15 в 22:43
0 ответов

RegularExpression python

Я прочитал книгу Орейли о поиске Python в главе 3, стр. 41, автор использовал регулярное выражение, чтобы взять всю ссылку, начинающуюся с "/" . Она написала: for link in bsObj.findAll("a", href=re.compile("^(/|.*"+includeUrl+")")): if link.attrs['h…
02 сен '16 в 13:35
1 ответ

JSOUP Войдите в систему, затем проанализируйте и найдите цену в HTML-строке

У меня программа в основном разобралась. Мне просто нужно вытащить цену из этой строки HTML: <li class=""><b class="">Your Price:</b> $23.51    <b class="">You Save:</b> $11.48</li> Мне просто ну…
30 июл '18 в 18:01
1 ответ

Извлечение данных из Web Scraping C#

Я разработчик MVC ASP.NET. Я получил содержимое с любого URL, т.е. http, https и т. Д., Используя класс WebRequest. Я получил все содержимое этого конкретного URL. (сейчас я взял http://google.com/) Мой следующий шаг - извлечь кнопки, колонтитулы, ц…
20 фев '14 в 07:36
1 ответ

Как мне войти на этот сайт с помощью C#, чтобы очистить его?

Привет, я удалил тысячи страниц, но впервые мне нужно настроить очистку для экранов, которые находятся за экраном входа в систему: https://wmars.cwmars.org/patroninfo/ Кто-нибудь хочет дать мне представление о том, что мне нужно сделать, в C#, чтобы…
05 фев '11 в 23:49