Как сканировать веб-сайт с аутентификацией SAML с использованием ManifoldCF или Nutch?

Я пытаюсь сканировать веб-сайт, а точнее Google Site с помощью ManifoldCF который имеет аутентификацию SAML и индексирует просканированные данные в Apache Solr. Но когда я сканирую URL, это дает мне 302 перенаправление на страницу входа, а затем говорит RESPONSECODENOTINDEXABLE,

Я не уверен, правильно ли я прошел аутентификацию или нет. В manifoldCF у нас есть варианты HTTP basic аутентификация, NTLM authentication а также Session-based метод аутентификации доступа к учетным данным. я использовал Session based метод аутентификации, который больше похож на аутентификацию на основе формы, чем SAML аутентификация.

Кто-нибудь сканировал веб-сайт с помощью manifoldCF? SAML аутентификация? А если нет manifoldCFКто-нибудь был в состоянии сделать это через Apache Nutch, потому что, боюсь, он также предоставляет только HTTP основной, Digest а также NTLM аутентификация.

Любое понимание будет полезно. Может предоставить больше информации относительно проблемы, если кто-то здесь думает, что это может быть легко достигнуто. В основном, когда я сканирую https://sites.google.com/a/my-sub-domain.com, он перенаправляет на страницу входа в систему единого входа, и сканер отказывается сканировать, вызывая ошибку 302. Это интранет-сайт.

2 ответа

В аутентификации Nutch forSSO с использованием SAML нет поддержки. Вы должны справиться с этим, написав свой собственный плагин. Мы расширили плагин proptocol-selenium для обработки потоков SAML.

Не уверен, поможет ли это, просто попробуйте. В сущности, мы можем предоставить учетные данные для входа на страницу, у нас есть файл httpclient-auth.xml в каталоге conf. Там вы можете указать имя вашего хоста вместе с учетными данными.

<auth-configuration>
   <credentials username="admin" password="admin123">
      <authscope host="hostname" realm="login"/>
      <default/>
   </credentials>
</auth-configuration>

Точно так же вы можете добавить любое количество учетных данных для этой конфигурации.

Чтобы сканировать https-сайт, измените свойство plugin.include с protocol-http на protocol-httpclient в файле nutch-conf.xml.

Мы изменили логику в плагине Nutch protocol-selenium для обработки потоков SSO. Вам нужно дождаться перенаправления на страницу единого входа. Тогда с помощью селена вы можете справиться с SSO. Снова дождитесь перенаправления на исходную страницу после SSO.

Если требуется двухфакторная аутентификация, все становится сложным. В этом случае вы можете настроить google authenticator (если это разрешено вашим IdP). Вы можете использовать это, чтобы получить ТОП.

Для сканирования файлов за аутентификацией не существует обычного способа. Вы можете настроить драйвер так, чтобы он всегда загружал файлы, а затем использовал файл docwnlaoded.

Вы можете обрабатывать поток аутентификации, используя другие http-клиенты. Если вам нужно содержимое динамической страницы (после того, как все запросы JS и Ajax завершены), тогда лучшим выбором будет селен, а если вы его используете, вы можете переместить всю деталь в селен.

Другие вопросы по тегам