Apache Nutch 2.3.1 фильтр не работает
Я настроил Nutch 2.3.1 с полной экосистемой Hadoop/Hbase на небольшом кластере. Мне любопытно по поводу алгоритма оценки, используемого в Nutch. Я нашел и использовал фильтр очков в Nutch. Чтобы найти его, у меня есть контрольная оценка на разных этапах Nutch IN (фаза dbupdate и generate), как указано в Nutch WIKI. Но я обнаружил, что каждый счет документа всегда остается нулевым, независимо от того, как можно выполнить итерацию и сколько документов я получу. Есть ли какая-то проблема в реализации opic, или мне не хватает некоторых его настроек.
Я заметил, что _csh_
поле, содержащее денежные средства, удаляется на этапе получения из соответствующей таблицы в Hbase.
1 ответ
Я решил это, поместив изменения в OPICScoringFilter.java
SRC / плагин / скоринг-OPIC / SRC / Java/ орг / Apache/ Nutch/ скоринг / OPIC /OPICScoringFilter.java
Я поместил это в Маркеры как UTF8.
- row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+ row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));