node.js \ почему я получаю RangeError: Превышен максимальный размер стека вызовов
Цель этой программы состоит в том, чтобы отсканировать CNN и записать весь его текст в один файл (используя пару сторонних разработчиков)
я получил
RangeError: Maximum call stack size exceeded
Как решить эту проблему, и как я могу обойти это? Есть ли способ, которым я могу "освободить" память? и как?
//----------Configuration--------------
var startingUrl = "http://cnn.com"; //keep the http\https or www prefix
var crawlingDepth = "50";
var outputFileName = "cnn.txt";
//-------------------------------------
var Crawler = require("js-crawler");
var sanitizeHtml = require('sanitize-html');
var htmlToText = require('html-to-text');
var fs = require('fs');
var index = 0;
new Crawler().configure({depth: crawlingDepth})
.crawl(startingUrl, function onSuccess(page) {
var text = htmlToText.fromString(page.body, {
wordwrap: false,
hideLinkHrefIfSameAsText: true,
ignoreHref: true,
ignoreImage: true
});
index++;
console.log(index + " pages were crawled");
fs.appendFile(outputFileName, text, function (err) {
if (err) {
console.log(err);
};
console.log('It\'s saved! in same location.');
});
});
1 ответ
Решение
1) Это проблема с глубиной рекурсии.
2) Необходимо избегать этого:
На каждом уровне глубины пройдены ссылки в токовых уровнях петли (на первом уровне находится одна первичная ссылка);
Получите доступ, используя ссылки 'Crawler.prototype._getAllUrls' текущей страницы, и, если эти ссылки еще не были обработаны - проходит через них;
3) Только концепция:
var Urls = [ ["http://cnn.com/"] ]; // What we crawling
var crawledUrls = {}; // Check if already crawled
var crawlingDepth = 3;
var depth = 0; // Current depth
var index = 0; // Current index
var Crawler = require("js-crawler");
function crawling() {
console.log(depth, index, Urls[depth][index]);
// Prepare next level
if (typeof Urls[depth+1] === "undefined") Urls.push([]);
// Already crawled flag
crawledUrls[ Urls[depth][index] ] = true;
new Crawler().configure({depth: 1}).crawl({
url: Urls[depth][index],
success: function(page) {
// Do some with crawled page
// Collect urls at crawled page
var urls = Crawler.prototype._getAllUrls( page.url, page.body );
for(var j=0; j<urls.length; j++) {
// Check same domain and now crawled yet
if ( typeof crawledUrls[urls[j]] === "undefined"
&& urls[j].indexOf(Urls[0][0])===0 ) {
Urls[depth+1].push(urls[j]);
}
}
},
failure: function(page) {
},
finished: function(crawled) {
index++;
if (index<Urls[depth].length) {
setTimeout(crawling,0);
} else {
depth++;
index = 0;
if (depth<crawlingDepth) {
setTimeout(crawling,0);
} else {
// Finished
}
}
}
});
}
crawling();