Извлечение содержимого документа с использованием Apache Tika и Cloudera Hadoop
Я пытаюсь извлечь контент из документа с помощью Apache Tika jar 1.6 и запускаю задание MapReduce с использованием CDH4.6. Я использовал код формы по ссылке ниже
https://groups.google.com/forum/
Но когда я запускаю код, появляется следующая ошибка
14/11/12 17:14:55 INFO mapred.JobClient: Task Id : attempt_201411121354_0007_m_000000_1, Status : FAILED
Error: java.lang.ClassNotFoundException: org.apache.tika.exception.TikaException
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
at TikaFileInputFormat.createRecordReader(TikaFileInputFormat.java:15)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:644)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330)
at org.apache.hadoop.mapred.Child$4.run(Child.java:268)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1438)
at org.apache.hadoop.mapred.Child.main(Child.java:262)
Кто-нибудь может подсказать, как решить эту проблему?