Найти дубликаты PDF

Question

Найти дубликаты PDF

Я ищу утилиту, которая поможет мне найти дубликаты PDF-файлов. Проблема: у меня есть тысячи файлов PDF. Некоторые являются дубликатами. Их нелегко обнаружить из-за различий в именах файлов и небольших различий в размере файлов. Есть ли утилита / алгоритм / библиотека, которая может помочь мне найти дубликаты или показать файлы, которые очень похожи (или степень различия)?

5

pdf similarity

Источник

user440210 03 окт '10 в 15:12

5 ответов

Другие вопросы по тегам pdf similarity

user417228 04 окт '10 в 12:25 2010-10-04 12:25 · Answer 1 · 2010-10-04 12:25

Создайте хеш MD5 для каждого файла и сохраните его в базе данных. Затем идентичные файлы будут отсортированы рядом друг с другом, или вы сможете быстро найти существующий ключ.

3

Источник

user417228 04 окт '10 в 12:25

user2302797 22 апр '13 в 06:25 2013-04-22 06:25 · Answer 2 · 2013-04-22 06:25

Проблема пока никак не решена. Что я делаю, так это использую fdupes http://premium.caribe.net/~adrian2/fdupes.html чтобы найти точные дубликаты.

Но больше всего я использую рабочий процесс, который минимизирует дубликаты. Каждый документ, который входит в мою систему, индексируется с помощью написанного мной perl-скрипта: http://seegras.discordia.ch/Programs/fileindex который помещает какое-то имя и md5-сумму в ~/.fileindex.md5. Теперь я могу изменять метаданные локальных PDF-файлов или что-либо еще (и снова запускать fileindex), и всякий раз, когда я случайно загружаю тот же файл снова, я сохраняю сумму md5 исходного файла и, таким образом, могу определить, является ли он дубликатом.

Также на http://seegras.discordia.ch/Programs/ есть exif-meta и exif-rename, которые помогают в настройке метаданных PDF и в переименовании PDF-файлов в соответствии с метаданными; и если вы пометите все файлы правильно, вы получите дубликаты имен файлов, указывающие, что они могут быть одним и тем же документом в другом файле.

user319149 08 окт '10 в 07:02 2010-10-08 07:02 · Answer 3 · 2010-10-08 07:02

Если файлы были созданы разными инструментами, они могли бы выглядеть одинаково, но давать совершенно разные результаты, потому что они структурированы совершенно по-разному. Я сделал несколько предложений в статье блога на https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

2

Источник

user319149 08 окт '10 в 07:02

user284696 03 окт '10 в 15:19 2010-10-03 15:19 · Answer 4 · 2010-10-03 15:19

DiffPDF выглядит как то, что может вам помочь.

1

Источник

user284696 03 окт '10 в 15:19

user148481 08 окт '10 в 07:08 2010-10-08 07:08 · Answer 5 · 2010-10-08 07:08

Я помню, что есть утилита UNIX под названием pdf2txt (см. Пакет poppler-utils). Вы можете попытаться извлечь текст из файлов и сделать текстовый diff.

1

Источник

user148481 08 окт '10 в 07:08