Отключить проверку robots.txt в Nutch

Question

Отключить проверку robots.txt в Nutch

Я хочу отключить проверку robots.txt в Nutch и сканировать все с веб-сайтов.Disable означает, что перед загрузкой или анализом любого веб-сайта пропустите проверку robot.txt. Это возможно?

4

web-crawler nutch

Источник

user1631282 15 фев '13 в 14:40

1 ответ

Решение

Хотя это старый вопрос, я лично считаю, что он все еще актуален.

да, можно отключить поток robots.txt (но вам нужно изменить и собрать исходный код Nutch).

Примечание. Nutch не предоставляет никаких конкретных настроек для отключения загрузки файла robots.txt перед получением фактического URL. потому что то, что вы говорите, звучит как злоупотребление URL-адресом / доменом, и вы хотите получить к нему доступ, независимо от того, что веб-сайт пытается сказать о своих ресурсах через robots.txt.

Как это возможно? Если у вас есть индивидуальный вариант использования, когда вам действительно нужно пропустить robots.txt, вы можете сделать следующие вещи

большинство плагинов (protocal-(http|httpclient|selenium|okhttp)) в Nutch использует класс HttpRobotRulesParser для извлечения и анализа содержимого robots.txt

В HttpRobotsRulesParser это конкретный метод, в котором вы можете анализировать и возвращать объект правил.

public BaseRobotRules getRobotRulesSet(Protocol http, URL url,
      List<Content> robotsTxtContent) {

    if (LOG.isTraceEnabled() && isWhiteListed(url)) {
      LOG.trace("Ignoring robots.txt (host is whitelisted) for URL: {}", url);
    }

    String cacheKey = getCacheKey(url);
    BaseRobotRules robotRules = CACHE.get(cacheKey);

    if (robotRules != null) {
      return robotRules; // cached rule
    } else if (LOG.isTraceEnabled()) {
      LOG.trace("cache miss " + url);
    }

    boolean cacheRule = true;
    URL redir = null;

    if (isWhiteListed(url)) {
      // check in advance whether a host is whitelisted
      // (we do not need to fetch robots.txt)
      robotRules = EMPTY_RULES;
      LOG.info("Whitelisted host found for: {}", url);
      LOG.info("Ignoring robots.txt for all URLs from whitelisted host: {}",
          url.getHost());

    } else {
      try {
        URL robotsUrl = new URL(url, "/robots.txt");
        Response response = ((HttpBase) http).getResponse(robotsUrl,
            new CrawlDatum(), false);
        if (robotsTxtContent != null) {
          addRobotsContent(robotsTxtContent, robotsUrl, response);
        }
        // try one level of redirection ?
        if (response.getCode() == 301 || response.getCode() == 302) {
          String redirection = response.getHeader("Location");
          if (redirection == null) {
            // some versions of MS IIS are known to mangle this header
            redirection = response.getHeader("location");
          }
          if (redirection != null) {
            if (!redirection.startsWith("http")) {
              // RFC says it should be absolute, but apparently it isn't
              redir = new URL(url, redirection);
            } else {
              redir = new URL(redirection);
            }

            response = ((HttpBase) http).getResponse(redir, new CrawlDatum(), false);
            if (robotsTxtContent != null) {
              addRobotsContent(robotsTxtContent, redir, response);
            }
          }
        }

        if (response.getCode() == 200) // found rules: parse them
          robotRules = parseRules(url.toString(), response.getContent(),
              response.getHeader("Content-Type"), agentNames);

        else if ((response.getCode() == 403) && (!allowForbidden))
          robotRules = FORBID_ALL_RULES; // use forbid all
        else if (response.getCode() >= 500) {
          //cacheRule = false; // try again later to fetch robots.txt
          robotRules = EMPTY_RULES;
        } else
          robotRules = EMPTY_RULES; // use default rules
      } catch (Throwable t) {
        if (LOG.isInfoEnabled()) {
          LOG.info("Couldn't get robots.txt for " + url + ": " + t.toString());
        }
        //cacheRule = false; // try again later to fetch robots.txt
        robotRules = EMPTY_RULES;
      }
    }

    if (cacheRule) {
      CACHE.put(cacheKey, robotRules); // cache rules for host
      if (redir != null && !redir.getHost().equalsIgnoreCase(url.getHost())
          && "/robots.txt".equals(redir.getFile())) {
        // cache also for the redirected host
        // if the URL path is /robots.txt
        CACHE.put(getCacheKey(redir), robotRules);
      }
    }

    return robotRules;
  }

вы можете продолжить и заменить метод ниже

  @Override
  public BaseRobotRules getRobotRulesSet(Protocol http, URL url,
      List<Content> robotsTxtContent) {
       return EMPTY_RULES; // always return empty rules to skip robots.txt access.
    }

вы просто издеваетесь над поведением, возвращая EMPTY_RULES.

Примечание Imp: всегда рекомендуется читать и получать доступ к ресурсам, как указано в robots.txt.

2

Источник

user3475488 14 сен '20 в 21:24

Другие вопросы по тегам web-crawler nutch

user1631282 01 мар '13 в 21:28 2013-03-01 21:28 · Accepted Answer · 2013-03-01 21:28

Насколько я понимаю, мы не можем отключить robots.txt в Nutch.

1

Источник

user1631282 01 мар '13 в 21:28