How Can i Find All Urls by PHP?

Мне интересно, есть ли какой-нибудь код или библиотека для получения всех URL-адресов в домене. Мне нужно найти все URL для домена.

Например, если мой домен - https://stackru.com/ и я хотел бы найти все URL-адреса вопросов следующим образом:

  1. Java-библиотека или приложение для конвертации CSV в XML-файл?
  2. [ https://stackru.com/questions/456/what-can-i]
  3. [ https://stackru.com/questions/789/where-can-i]

Я не знаю, сколько вопросов находится в домене, но мне нужно создать механизм для поиска по всем URL-адресам, а затем, после нахождения URL-адресов, мне нужно вставить контент в свою базу данных.

Я создам небольшую поисковую систему для моих 5 веб-страниц.

Может кто-нибудь помочь, пожалуйста?

Спасибо,

1 ответ

Поиск Lucene позволяет легко проиндексировать ваши страницы, чтобы их можно было эффективно и точно искать.

Посмотрите Zend_Search_Lucene для PHP-реализации Lucene serach.

Вы все еще должны сделать паук на своем сайте и создать индекс, что является еще одной проблемой. Вы можете использовать программное обеспечение, такое как Teleport Pro, для отслеживания вашего сайта и предоставления вам списка URL-адресов, которые затем можно передать PHP-скрипту, который получает содержимое всех страниц и передает их в Zend_Search_Lucene для создания индекса. Вы также можете написать сканер на PHP или использовать существующее решение. Поиск по php crawler дает много вещей, в том числе этот полезный сканер php.

Другие вопросы по тегам