Алгоритм оценки на основе домена для Apache Nutch 2.3.1

Question

Алгоритм оценки на основе домена для Apache Nutch 2.3.1

Я настроил экосистему Hadoop/Hbase и Nutch 2.3.1 для сканирования нескольких доменов из Интернета. Crawler не ограничивается только семенами и будет расти со временем (из исходящих ссылок). Я должен настроить рейтинг в соответствии со своими потребностями. Я хочу установить оценку централизованно для каждого домена и для любого документа, его оценка будет выбираться из его домена, а не уровня документа. Просто чтобы прояснить ситуацию

S = S1 + S2 + S3 + ... + Sn
Sd = S/(total docs)

Где S - общий балл, т. Е. Сумма баллов каждого документа. Sd - это средняя общая оценка. S1 (и т. Д.) - это оценка, которая будет присвоена документу в зависимости от его качества. Я в основном хочу сделать предположение о новом поступающем документе, хорошо ли это получить или нет.

Для этого, его реализация проблематична (это может быть из-за того, что я новичок), и я не мог добавить новый документ в классы оценки в Nutch. Прежде всего, возможно ли это или есть альтернативное и лучшее решение? и если да, то как добавить новый (доменный) документ, если он не существует в хранилище данных во время выполнения.

0

java hadoop mapreduce nutch nutch2

Источник

user3454410 13 ноя '18 в 09:52

0 ответов

Другие вопросы по тегам java hadoop mapreduce nutch nutch2