Отключить проверку robots.txt в Nutch
Я хочу отключить проверку robots.txt в Nutch и сканировать все с веб-сайтов.Disable
означает, что перед загрузкой или анализом любого веб-сайта пропустите проверку robot.txt. Это возможно?
1 ответ
Насколько я понимаю, мы не можем отключить robots.txt в Nutch.
Хотя это старый вопрос, я лично считаю, что он все еще актуален.
да, можно отключить поток robots.txt (но вам нужно изменить и собрать исходный код Nutch).
Примечание. Nutch не предоставляет никаких конкретных настроек для отключения загрузки файла robots.txt перед получением фактического URL. потому что то, что вы говорите, звучит как злоупотребление URL-адресом / доменом, и вы хотите получить к нему доступ, независимо от того, что веб-сайт пытается сказать о своих ресурсах через robots.txt.
Как это возможно? Если у вас есть индивидуальный вариант использования, когда вам действительно нужно пропустить robots.txt, вы можете сделать следующие вещи
большинство плагинов (protocal-(http|httpclient|selenium|okhttp)) в Nutch использует класс HttpRobotRulesParser для извлечения и анализа содержимого robots.txt
В HttpRobotsRulesParser это конкретный метод, в котором вы можете анализировать и возвращать объект правил.
public BaseRobotRules getRobotRulesSet(Protocol http, URL url,
List<Content> robotsTxtContent) {
if (LOG.isTraceEnabled() && isWhiteListed(url)) {
LOG.trace("Ignoring robots.txt (host is whitelisted) for URL: {}", url);
}
String cacheKey = getCacheKey(url);
BaseRobotRules robotRules = CACHE.get(cacheKey);
if (robotRules != null) {
return robotRules; // cached rule
} else if (LOG.isTraceEnabled()) {
LOG.trace("cache miss " + url);
}
boolean cacheRule = true;
URL redir = null;
if (isWhiteListed(url)) {
// check in advance whether a host is whitelisted
// (we do not need to fetch robots.txt)
robotRules = EMPTY_RULES;
LOG.info("Whitelisted host found for: {}", url);
LOG.info("Ignoring robots.txt for all URLs from whitelisted host: {}",
url.getHost());
} else {
try {
URL robotsUrl = new URL(url, "/robots.txt");
Response response = ((HttpBase) http).getResponse(robotsUrl,
new CrawlDatum(), false);
if (robotsTxtContent != null) {
addRobotsContent(robotsTxtContent, robotsUrl, response);
}
// try one level of redirection ?
if (response.getCode() == 301 || response.getCode() == 302) {
String redirection = response.getHeader("Location");
if (redirection == null) {
// some versions of MS IIS are known to mangle this header
redirection = response.getHeader("location");
}
if (redirection != null) {
if (!redirection.startsWith("http")) {
// RFC says it should be absolute, but apparently it isn't
redir = new URL(url, redirection);
} else {
redir = new URL(redirection);
}
response = ((HttpBase) http).getResponse(redir, new CrawlDatum(), false);
if (robotsTxtContent != null) {
addRobotsContent(robotsTxtContent, redir, response);
}
}
}
if (response.getCode() == 200) // found rules: parse them
robotRules = parseRules(url.toString(), response.getContent(),
response.getHeader("Content-Type"), agentNames);
else if ((response.getCode() == 403) && (!allowForbidden))
robotRules = FORBID_ALL_RULES; // use forbid all
else if (response.getCode() >= 500) {
//cacheRule = false; // try again later to fetch robots.txt
robotRules = EMPTY_RULES;
} else
robotRules = EMPTY_RULES; // use default rules
} catch (Throwable t) {
if (LOG.isInfoEnabled()) {
LOG.info("Couldn't get robots.txt for " + url + ": " + t.toString());
}
//cacheRule = false; // try again later to fetch robots.txt
robotRules = EMPTY_RULES;
}
}
if (cacheRule) {
CACHE.put(cacheKey, robotRules); // cache rules for host
if (redir != null && !redir.getHost().equalsIgnoreCase(url.getHost())
&& "/robots.txt".equals(redir.getFile())) {
// cache also for the redirected host
// if the URL path is /robots.txt
CACHE.put(getCacheKey(redir), robotRules);
}
}
return robotRules;
}
вы можете продолжить и заменить метод ниже
@Override
public BaseRobotRules getRobotRulesSet(Protocol http, URL url,
List<Content> robotsTxtContent) {
return EMPTY_RULES; // always return empty rules to skip robots.txt access.
}
вы просто издеваетесь над поведением, возвращая EMPTY_RULES.
Примечание Imp: всегда рекомендуется читать и получать доступ к ресурсам, как указано в robots.txt.