iOS: PDF-сканер получает координаты текста

Я использую CGPDFScanner для сканирования PDF. Должен ли я использовать оператор Td, чтобы найти позиции текста? Могу ли я иметь пример того, как использовать этот оператор, чтобы получить позиции текста? Тока я использовал операторы Tj и TJ, чтобы найти текст. Теперь я хотел бы узнать положение каждого слова на одной странице PDF. Как я могу это сделать?

Спасибо

2 ответа

Посмотрите эту библиотеку: https://github.com/KurtCode/PDFKitten/ найдите и выделите текст

Чтобы получить координаты текста, вам нужно отслеживать матрицу преобразования текста. См. Раздел 5.3.1, "Операторы позиционирования текста" в PDF 1.4 Reference. (Я не уверен, что более поздние версии ссылочного номера одинаковы или нет.) Хотя Td Оператор установит текущий перевод в текстовой матрице, есть другие операторы, которые влияют на текстовую матрицу, а также на другое состояние текста. Вам нужно следить за текстовой матрицей при обработке файла. Tm Оператор напрямую установит текстовую матрицу. TD Оператор перемещается на следующую строку и смещается по параметрам x и y. T* просто переходит на следующую строку.

Другие вопросы по тегам