Apache Nutch алгоритм ранжирования для конкретного языкового контента

Question

Apache Nutch алгоритм ранжирования для конкретного языкового контента

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase для сканирования контента на языке урду. Для определения языка я настроил сборщик и нахожу язык на этом этапе. Если в документе недостаточно языка урду (в байтах), я намеренно устанавливаю его статус "исчез", чтобы прекратить наращивать этот край с нулевым содержимым. Я также должен найти новые домены урду.

Я все еще сталкиваюсь с проблемой выбора URL для получения. С течением времени количество входящих ссылок увеличивается и включает в себя множество тех URL, которые не входят в урду. Nutch выбирает (генератор) около 90% этих URL, которые не содержат урду. По этой причине мои ресурсы тратятся впустую из-за очень небольшого количества нового контента на урду.

Как я могу побудить Nutch отдать предпочтение тем документам домена, которые имеют контент на урду? Я думаю, что я должен как-то настроить алгоритм ранжирования. Каковы возможные способы достижения моей цели?

0

web-crawler nutch nutch2

Источник

user3454410 27 авг '18 в 11:28

1 ответ

Решение

Другие вопросы по тегам web-crawler nutch nutch2

user1977773 27 авг '18 в 12:23 2018-08-27 12:23 · Accepted Answer · 2018-08-27 12:23

Я думаю, что самым простым решением было бы назначить действительно низкий балл этим неважным URL-адресам. И, возможно, установите минимальный порог оценки для генератора ( https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93).

Конечно, все это связано с определенными проблемами, может случиться так, что в какой-то момент у вас закончились URL-адреса для извлечения. Потому что либо генератор не нашел подходящего кандидата (порог оценки, либо не осталось URL для урду для извлечения), либо все URL (которые вы обнаружили) уже получены.

Обычно это хорошая идея для планирования этих крайних случаев.