Как решить разные URL вперед на той же странице в приложении веб-робота
У меня проблема с приложением веб-робота.
URL: http://www.domain.com/path?id=1
URL b: http://www.domain.com/path?id=1&sessionid=XXXXXX
там два URL и перенаправить на одно и то же приложение page.robot скачать страницу дважды.
в моем приложении-роботе два URL-адреса конвертируются в значение md5 для проверки. но строка URL изменилась, поэтому значение md5 также изменилось. посещенный кеш не может попасть.
есть лучшее решение?
1 ответ
Если бы я был вами, я бы использовал алгоритм для расчета сходства контента, и если они похожи на настроенный порог, рассмотрите их как один и тот же документ. Проверка на абсолютное равенство (например, MD5SUM) не будет работать, потому что динамическое содержимое (например, отметка времени) нарушит такую схему.
Использование сходства документов является распространенным подходом при сканировании в Интернете, чтобы роботы не загружали практически один и тот же контент снова и снова.
Очень простой алгоритм подобия, такой как расстояние Левенштейна, мог бы сделать эту работу, но что-то вроде косинусного сходства было бы лучше для этого.