Как получить все ссылки, ссылающиеся на определенную страницу со страницей, используя парсерную работу Nutch

Я использую nutch2.2 и hbase 0.94 и gora 0.4 и когда я выполняю следующие шаги

1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231

я получу html контент определенной страницы, скажем ([ http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts]), но когда я выполняю шаг 4

nutch parse 231

и вижу мой webpage таблица, созданная в Hbase есть ol(outlink) семейство столбцов, но оно пустое

если кто-то может помочь, это будет хорошо для меня, если я получу все ссылки.

заранее спасибо

0 ответов

Другие вопросы по тегам