Я пытался вызвать метод getPageTextContent() из PDF JS, но в некоторых случаях он возвращает избыточное текстовое содержимое.
Повторение текста не во всех случаях, но мало.