Nutch 1.7 JAVA_HOME не установлен Ошибка

Я экспериментирую с Apache Nutch 1.7 и Solr на Ubuntu 14.04 x64 (AMD) LTS и при попытке запустить Nutch выдает следующее сообщение об ошибке:

Ошибка: JAVA_HOME не установлен.

Но когда я набираю на терминале команду echo $JAVA_HOME, она дает мне следующий путь: / usr / lib / jvm / java-7-openjdk-amd64

Ниже вы можете увидеть, что я сделал шаг за шагом. Как я могу это исправить?

* ps: Ubuntu - это виртуальная машина, которая работает на Mac с Oracle VirtualBox

  1. Включение Java в терминал с помощью sudo apt-get -y install openjdk-7-jdk
  2. Проверка установки Java с помощью команды java -version
  3. Настройка JAVA_HOME с помощью:

  4. sudo nano /etc/environment

  5. Затем введите следующую строку внизу файла: JAVA_HOME = "/ usr / lib / jvm / java-7-openjdk-amd64"

  6. kntrl + X ярлык для сохранения изменений.

  7. Тогда эта команда: источник /etc/environment

  8. Теперь JAVA_HOME должен быть установлен. Я проверил это с помощью следующей команды, и он дает мне путь. echo $JAVA_HOME и вывод такой же, как указано выше.

  9. Затем я установил Solr с помощью sudo apt-get -y install solr-tomcat

  10. Я контролировал установку, набрав этот адрес в браузере: http://localhost:8080/solr и это показывает мне начальную страницу Solr

  11. Я скачал Apache Nutch 1.7 с http://nutch.apache.org/ и файл получил название apache-nutch-1.7.-bin.tar.gz.

  12. Затем распакуйте его: tar -zxvf apache-nutch-1.7-bin.tar.gz

  13. Я проверил установку Nutch просто следующим образом: cd apache-nutch-1.7, затем bin/nutch, и вывод похож на Использование: nutch COMMAND где......

  14. Затем я редактирую свой файл conf/nutch-site.xml, как показано здесь: Ссылка (Вам нужно посмотреть под этим заголовком: " 3) Настройте свой Nutch-Site.Xml ") Вещи, которые я сделал, отличные от этой последней ссылки; MyBot и MyBot,* поля. Вместо MyBot я написал mySpider

  15. Тогда я попадаю в каталог конфет с терминалом. Вот что я сделал после: mkdir -p urls, cd urls, touch seed.txt, nano seed.txt

  16. я только написал этот URL в файле, как это предлагается в официальном учебнике NUTCH: http://nutch.apache.org/

17После того, как я сохранил свои изменения в файле seed.txt. Я редактирую файл conf / regex-urlfilter.txt. Я удаляю эти две строки:

принять что-нибудь еще

+.

Тогда я написал это вместо них:

+^http://([a-z0-9]*\.)*nutch.apache.org/

После этого,

Я использовал эту команду, как это предлагается в учебнике: bin/nutch crawl urls -dir crawl -depth 3 -topN 5

После этой команды я вижу это сообщение об ошибке: Ошибка: JAVA_HOME не установлен.

Я также нашел эту статью, но она также не решила мою проблему: Nutch - Ошибка получения: JAVA_HOME не установлен. при попытке ползти

1 ответ

Сначала попробуйте: readlink -f $(который java)

Это точно скажет вам, где находится ваш JAVA_HOME, вы должны увидеть что-то вроде:

  /usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java

Затем попробуйте использовать это значение, чтобы установить JAVA_HOME непосредственно перед вызовом сценария сканирования, т.е.

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/jre/ 
bin/nutch crawl urls -dir crawl -depth 3 -topN 5

обратите внимание, что значение должно указывать на каталог JRE в допустимом местоположении JDK.

ps Вам не хватает параметра URL Solr (если, конечно, вы хотите проиндексировать просканированные документы)

Другие вопросы по тегам