Как получить все ссылки, ссылающиеся на определенную страницу со страницей, используя парсерную работу Nutch
Я использую nutch2.2 и hbase 0.94 и gora 0.4 и когда я выполняю следующие шаги
1.nutch inject seed.txt
2.nutch generate -batchId 231
3.nutch fetch 231
4.nutch parse 231
5.nutch updatedb 231
я получу html контент определенной страницы, скажем ([ http://www.flipkart.com/mens-clothing/t-shirts?otracker=hp_nmenu_sub_men_0_T-Shirts]), но когда я выполняю шаг 4
nutch parse 231
и вижу мой webpage
таблица, созданная в Hbase есть ol(outlink)
семейство столбцов, но оно пустое
если кто-то может помочь, это будет хорошо для меня, если я получу все ссылки.
заранее спасибо