Извлечение метаданных файлов в HDFS с использованием Apache Tika и Apache Spark

У меня большой объем изображений /pdfs/ отсканированных документов и т. Д. В HDFS, я хочу выполнить базовое извлечение метаданных из этих файлов, например размер файла, имя создателя файла, подписи, заголовки, комментарии и т. Д. Я новичок в интеллектуальном анализе данных и, следовательно, после некоторого поиска в Google, я понял, что Apache Tika может быть хорошим вариантом для извлечения этих метаданных.

Поскольку документации не так много, я все еще не могу понять, как я могу использовать возможности параллельной обработки Apache Spark и возможности интеллектуального анализа данных Apache Tika вместе поверх данных, представленных в HDFS? Кроме того, имеет ли смысл делать это?

Есть ли возможность использовать библиотеки tika с помощью pySpark?

Есть ли в Spark похожая функция, которую можно использовать для извлечения метаданных с использованием самого Spark, а не для его перегрузки с помощью Apache Tika?

С уважением, Бхупеш

0 ответов

Другие вопросы по тегам