Алгоритм оценки на основе домена для Apache Nutch 2.3.1
Я настроил экосистему Hadoop/Hbase и Nutch 2.3.1 для сканирования нескольких доменов из Интернета. Crawler не ограничивается только семенами и будет расти со временем (из исходящих ссылок). Я должен настроить рейтинг в соответствии со своими потребностями. Я хочу установить оценку централизованно для каждого домена и для любого документа, его оценка будет выбираться из его домена, а не уровня документа. Просто чтобы прояснить ситуацию
S = S1 + S2 + S3 + ... + Sn
Sd = S/(total docs)
Где S - общий балл, т. Е. Сумма баллов каждого документа. Sd - это средняя общая оценка. S1 (и т. Д.) - это оценка, которая будет присвоена документу в зависимости от его качества. Я в основном хочу сделать предположение о новом поступающем документе, хорошо ли это получить или нет.
Для этого, его реализация проблематична (это может быть из-за того, что я новичок), и я не мог добавить новый документ в классы оценки в Nutch. Прежде всего, возможно ли это или есть альтернативное и лучшее решение? и если да, то как добавить новый (доменный) документ, если он не существует в хранилище данных во время выполнения.