Описание тега websphinx

WebSPHINX - это библиотека классов Java для создания веб-сканеров.
0 ответов

Websphinx - Crawling Java

Я загрузил исходные файлы http://www.cs.cmu.edu/~rcm/websphinx/ и импортировал проект в eclipse, чтобы создать свой сканер. Проблема заключается в поддержке библиотек, а именно:gd, graph и symatec; Я получаю ошибки импорта этих библиотек! как я могу…
20 май '13 в 10:37
1 ответ

Как выполнить проверку подлинности формы, введя имя пользователя и пароль, когда веб-сканер сканирует страницы

Я загрузил websphinx, чтобы сделать это, но мне нужно, чтобы он спросил у меня имя пользователя и пароль веб-сайта, а затем отправил имя пользователя и пароль на сайт, и после аутентификации он должен начать сканировать внутренние ссылки и подсылки …
13 дек '11 в 09:43
0 ответов

Используйте Java для сканирования и загрузки всего веб-сайта, переопределяя HttpsURLConnection

Я хочу сканировать весь веб-сайт и сохранять его локально в автономном режиме. Он должен иметь 2 части: Аутентификация Это должно быть реализовано с использованием Java, и мне нужно переопределить логику HttpsURLConnection, чтобы добавить пару строк…
19 янв '17 в 22:18
1 ответ

Regex Работает над тестовой программой, но не над WebSprinx crwaler

Вот мой код для соответствия Regex, который работал для веб-страницы: public class RegexTestHarness { public static void main(String[] args) { File aFile = new File("/home/darshan/Desktop/test.txt"); FileInputStream inFile = null; try { inFile = new…
07 сен '11 в 18:56
6 ответов

Как сканировать всю Википедию?

Я пробовал приложение WebSphinx. Я понимаю, что если я добавлю wikipedia.org в качестве начального URL, он больше не будет сканироваться. Следовательно, как на самом деле сканировать всю Википедию? Кто-нибудь может дать мне несколько рекомендаций? Н…
22 фев '10 в 20:01