iOS: PDF-сканер получает координаты текста
Я использую CGPDFScanner для сканирования PDF. Должен ли я использовать оператор Td, чтобы найти позиции текста? Могу ли я иметь пример того, как использовать этот оператор, чтобы получить позиции текста? Тока я использовал операторы Tj и TJ, чтобы найти текст. Теперь я хотел бы узнать положение каждого слова на одной странице PDF. Как я могу это сделать?
Спасибо
2 ответа
Посмотрите эту библиотеку: https://github.com/KurtCode/PDFKitten/ найдите и выделите текст
Чтобы получить координаты текста, вам нужно отслеживать матрицу преобразования текста. См. Раздел 5.3.1, "Операторы позиционирования текста" в PDF 1.4 Reference. (Я не уверен, что более поздние версии ссылочного номера одинаковы или нет.) Хотя Td
Оператор установит текущий перевод в текстовой матрице, есть другие операторы, которые влияют на текстовую матрицу, а также на другое состояние текста. Вам нужно следить за текстовой матрицей при обработке файла. Tm
Оператор напрямую установит текстовую матрицу. TD
Оператор перемещается на следующую строку и смещается по параметрам x и y. T*
просто переходит на следующую строку.