node.js \ как относиться к результату sanitize-html
Новичок в Node.js. Я пытаюсь санировать htmls в node.js, используя модуль sanitize-html. Я считаю этот вопрос более общим, как он может выглядеть:
плагин выводит объект (я печатаю на консоль и он заявляет [объект]) - как мне узнать, как работать с этим объектом? каковы его поля, как записать его в файл и т. д. (я знаю, это может звучать просто - нужно ли сериализовать его? каков подход к работе с объектом..)
var Crawler = require("js-crawler");
var download = require("url-download");
var sanitizeHtml = require('sanitize-html');
var util = require('util');
var fs = require('fs');
new Crawler().configure({depth: 1})
.crawl("http://www.cnn.com", function onSuccess(page) {
var clean = sanitizeHtml(page);
console.log(clean);
fs.writeFile('sanitized.txt', clean, function (err) {
if (err) throw err;
console.log('It\'s saved! in same location.');
});
console.log(util.inspect(clean, {showHidden: false, depth: null}));
var str = JSON.stringify(clean.toString());
console.log(str);
/*download(page.url, './download')
.on('close', function () {
console.log('One file has been downloaded.');
});*/
});
1 ответ
Решение
Ваша проблема не с 'sanitize-html. Вы неправильно обрабатываете переменную страницы. Вы должны использовать:
var clean = sanitizeHtml(page.body);