Nutch 1.7 JAVA_HOME не установлен Ошибка
Я экспериментирую с Apache Nutch 1.7 и Solr на Ubuntu 14.04 x64 (AMD) LTS и при попытке запустить Nutch выдает следующее сообщение об ошибке:
Ошибка: JAVA_HOME не установлен.
Но когда я набираю на терминале команду echo $JAVA_HOME, она дает мне следующий путь: / usr / lib / jvm / java-7-openjdk-amd64
Ниже вы можете увидеть, что я сделал шаг за шагом. Как я могу это исправить?
* ps: Ubuntu - это виртуальная машина, которая работает на Mac с Oracle VirtualBox
- Включение Java в терминал с помощью sudo apt-get -y install openjdk-7-jdk
- Проверка установки Java с помощью команды java -version
Настройка JAVA_HOME с помощью:
sudo nano /etc/environment
Затем введите следующую строку внизу файла: JAVA_HOME = "/ usr / lib / jvm / java-7-openjdk-amd64"
kntrl + X ярлык для сохранения изменений.
Тогда эта команда: источник /etc/environment
Теперь JAVA_HOME должен быть установлен. Я проверил это с помощью следующей команды, и он дает мне путь. echo $JAVA_HOME и вывод такой же, как указано выше.
Затем я установил Solr с помощью sudo apt-get -y install solr-tomcat
Я контролировал установку, набрав этот адрес в браузере:
http://localhost:8080/solr
и это показывает мне начальную страницу SolrЯ скачал Apache Nutch 1.7 с http://nutch.apache.org/ и файл получил название apache-nutch-1.7.-bin.tar.gz.
Затем распакуйте его: tar -zxvf apache-nutch-1.7-bin.tar.gz
Я проверил установку Nutch просто следующим образом: cd apache-nutch-1.7, затем bin/nutch, и вывод похож на Использование: nutch COMMAND где......
Затем я редактирую свой файл conf/nutch-site.xml, как показано здесь: Ссылка (Вам нужно посмотреть под этим заголовком: " 3) Настройте свой Nutch-Site.Xml ") Вещи, которые я сделал, отличные от этой последней ссылки; MyBot и MyBot,* поля. Вместо MyBot я написал mySpider
Тогда я попадаю в каталог конфет с терминалом. Вот что я сделал после: mkdir -p urls, cd urls, touch seed.txt, nano seed.txt
я только написал этот URL в файле, как это предлагается в официальном учебнике NUTCH: http://nutch.apache.org/
17После того, как я сохранил свои изменения в файле seed.txt. Я редактирую файл conf / regex-urlfilter.txt. Я удаляю эти две строки:
принять что-нибудь еще
+.
Тогда я написал это вместо них:
+^http://([a-z0-9]*\.)*nutch.apache.org/
После этого,
Я использовал эту команду, как это предлагается в учебнике: bin/nutch crawl urls -dir crawl -depth 3 -topN 5
После этой команды я вижу это сообщение об ошибке: Ошибка: JAVA_HOME не установлен.
Я также нашел эту статью, но она также не решила мою проблему: Nutch - Ошибка получения: JAVA_HOME не установлен. при попытке ползти
1 ответ
Сначала попробуйте: readlink -f $(который java)
Это точно скажет вам, где находится ваш JAVA_HOME, вы должны увидеть что-то вроде:
/usr/lib/jvm/java-7-openjdk-amd64/jre/bin/java
Затем попробуйте использовать это значение, чтобы установить JAVA_HOME непосредственно перед вызовом сценария сканирования, т.е.
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/jre/
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
обратите внимание, что значение должно указывать на каталог JRE в допустимом местоположении JDK.
ps Вам не хватает параметра URL Solr (если, конечно, вы хотите проиндексировать просканированные документы)