How Can i Find All Urls by PHP?
Мне интересно, есть ли какой-нибудь код или библиотека для получения всех URL-адресов в домене. Мне нужно найти все URL для домена.
Например, если мой домен - https://stackru.com/ и я хотел бы найти все URL-адреса вопросов следующим образом:
- Java-библиотека или приложение для конвертации CSV в XML-файл?
- [ https://stackru.com/questions/456/what-can-i]
- [ https://stackru.com/questions/789/where-can-i]
Я не знаю, сколько вопросов находится в домене, но мне нужно создать механизм для поиска по всем URL-адресам, а затем, после нахождения URL-адресов, мне нужно вставить контент в свою базу данных.
Я создам небольшую поисковую систему для моих 5 веб-страниц.
Может кто-нибудь помочь, пожалуйста?
Спасибо,
1 ответ
Поиск Lucene позволяет легко проиндексировать ваши страницы, чтобы их можно было эффективно и точно искать.
Посмотрите Zend_Search_Lucene для PHP-реализации Lucene serach.
Вы все еще должны сделать паук на своем сайте и создать индекс, что является еще одной проблемой. Вы можете использовать программное обеспечение, такое как Teleport Pro, для отслеживания вашего сайта и предоставления вам списка URL-адресов, которые затем можно передать PHP-скрипту, который получает содержимое всех страниц и передает их в Zend_Search_Lucene для создания индекса. Вы также можете написать сканер на PHP или использовать существующее решение. Поиск по php crawler
дает много вещей, в том числе этот полезный сканер php.