Apache Nutch 2.3.1 фильтр не работает

Я настроил Nutch 2.3.1 с полной экосистемой Hadoop/Hbase на небольшом кластере. Мне любопытно по поводу алгоритма оценки, используемого в Nutch. Я нашел и использовал фильтр очков в Nutch. Чтобы найти его, у меня есть контрольная оценка на разных этапах Nutch IN (фаза dbupdate и generate), как указано в Nutch WIKI. Но я обнаружил, что каждый счет документа всегда остается нулевым, независимо от того, как можно выполнить итерацию и сколько документов я получу. Есть ли какая-то проблема в реализации opic, или мне не хватает некоторых его настроек.

Я заметил, что _csh_ поле, содержащее денежные средства, удаляется на этапе получения из соответствующей таблицы в Hbase.

1 ответ

Я решил это, поместив изменения в OPICScoringFilter.java

SRC / плагин / скоринг-OPIC / SRC / Java/ орг / Apache/ Nutch/ скоринг / OPIC /OPICScoringFilter.java

Я поместил это в Маркеры как UTF8.

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));

Я тоже вижу то же самое. Удалось ли решить проблему?

Другие вопросы по тегам