Пробелы не обнаруживаются при сканировании PDF - iOS (CGPDFScanner)

Я работаю над сканированием PDF, где я хочу извлечь текст из PDF. Я использую pdf Multithreading.pdf для поиска. Я могу извлечь текст, но не могу извлечь пробелы из текста. Я получаю только обратные вызовы для оператора Tj, а не для TJ. В чем может быть проблема?

Спасибо

1 ответ

Решение

Я могу извлечь текст, но не могу извлечь пробелы из текста. Я получаю только обратные вызовы для оператора Tj, а не для TJ.

Причины в том, что в вашем образце документа

  1. в операциях рисования текста пробелы не используются, но вместо этого позиция рисования текста изменяется с помощью операций Tm; а также
  2. используются только операции рисования текста Tj, но не операции TJ.

Например, операции рисования текста титульного листа

заголовок на титульном листе

являются:

BT
/F0 50 Tf
1 0 0 1 60 669.225 Tm
(\0006)Tj                                    %  T
1 0 0 1 83.527 669.225 Tm
(\000J\000T)Tj                               %  hr
1 0 0 1 125.631 669.225 Tm
(\000G\000C\000F\000K\000P\000I)Tj           %  eading
1 0 0 1 273.395 669.225 Tm
(\0002)Tj                                    %  P
1 0 0 1 298.272 669.225 Tm
(\000T)Tj                                    %  r
1 0 0 1 313.599 669.225 Tm
(\000Q)Tj                                    %  o
1 0 0 1 340.076 669.225 Tm
(\000I\000T)Tj                               %  gr
1 0 0 1 382.43 669.225 Tm
(\000C\000O\000O\000K\000P\000I)Tj           %  amming
0 Tc
1 0 0 1 60 609.225 Tm
(\000\))Tj                                   %  G
1 0 0 1 91.7 609.225 Tm
(\000W\000K\000F\000G)Tj                     %  uide
ET  

В операциях рисования текста Tj нет пробелов, только смещения в позиции рисования с использованием Tm.

Другие вопросы по тегам