Веб-очистка с запросом узла npm
Я пытаюсь почистить сайт: http://www.vehiculo-robado.com/ но возвращает мне это:
error: null
statusCode: 200
body: <html style="height:100%"><head><META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"><meta name="format-detection" content="telephone=no"><meta name="viewport" content="initial-scale=1.0"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"></head><body style="margin:0px;height:100%"><iframe src="/_Incapsula_Resource?CWUDNSAI=9&xinfo=6-31980899-0%202NNN%20RT%281508782951589%204%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%284%2c315%2c0%29&incident_id=874000030218433631-157072954141311030&edet=12&cinfo=04000000" frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula incident ID: 874000030218433631-157072954141311030</iframe></body></html>
В Интернете есть HTML...
Это мое промежуточное программное обеспечение для очистки сети:
const request = require('request');
function webScraped(req,res,next){
const url = `http://www.vehiculo-robado.com`
req.webParsed = function webToScrape (callback){
request(url, function(error, response, body){
console.log('error:', error);
console.log('statusCode:', response && response.statusCode);
console.log('body =========>', body)
return callback(false, body);
})
}
next()
}
module.exports = webScraped
Я пытался с другими сайтами, такими как Google, и он возвращает мне HTML хорошо. Я не знаю, что я делаю не так.
0 ответов
Этот веб-сайт (vehicleulo-robado) использует сервис защиты от соскобов под названием SiteLock. Вот почему он отклоняет ваш запрос и отправляет вам в основном пустой HTML. Вот что я получил в ответ:
<html style="height:100%">
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta name="format-detection" content="telephone=no">
<meta name="viewport" content="initial-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
</head>
<body style="margin:0px;height:100%"><iframe
src="/_Incapsula_Resource?SWUDNSAI=9&xinfo=3-7455753-0%200NNN%20RT%281550759526831%201%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%284%2c316%2c0%29%20U10000&incident_id=511001260010653929-37058068785072099&edet=12&cinfo=04000000"
frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula
incident ID:
511001260010653929-37058068785072099</iframe></body>
</html>
Обойти это можно, формируя ваш запрос так, чтобы он выглядел как обычный запрос браузера.