Как получить текстовые файлы содержимого с тика 1.6?

Question

Как получить текстовые файлы содержимого с тика 1.6?

Привет я пытаюсь получить текстовое содержимое из любых файлов в этом списке pdf,txt,doc,docx и odt. Реализация с тика ранее работала нормально, но теперь не работает, код такой:

`` `

public void uploadFile(FileUploadEvent event) throws Exception {
 UploadedFile file = event.getUploadedFile();
 byte[] data = file.getData();
 Tika tika = new Tika();
 string = tika.parseToString(new ByteArrayInputStream(data));
 ...
}

`` `

Есть идеи? плохая реализация?

1

java-ee apache-tika

Источник

user2126130 15 янв '15 в 17:10

1 ответ

Решение

Другие вопросы по тегам java-ee apache-tika

user1883511 19 мар '15 в 16:32 2015-03-19 16:32 · Accepted Answer · 2015-03-19 16:32

Вам нужно добавить тика-парсеры.

Например, с помощью maven добавьте эту зависимость в ваш файл pom.xml:

<dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-parsers</artifactId>
        <version>1.7</version>
</dependency>

И вы можете использовать Auto-Detect Parser:

BodyContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
    parser.parse(is, handler, metadata);
    text = handler.toString();
} catch(TikaException te) {
    System.out.println(te.toString());
} finally {
    is.close();
}