docsplit gem pdf to text

Ну, в основном у меня есть те же проблемы, что и здесь: http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ Но решение, которое они предлагают в docsplit, не не работает

 Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})

опция:pdf_opts => '-layout' ничего не делает, и я не могу найти документацию по таким параметрам, поэтому я получаю по одному слову на строку в выходном текстовом файле.

Кто-нибудь знает, как получить точный текстовый файл?

Спасибо

1 ответ

Решение

Если вы читаете пост в блоге тщательно внутреннюю обработку

 :pdf_opts => ‘-layout’

пока не поддерживается основной веткой docsplit gem. Для этого вам нужно использовать https://github.com/documentcloud/docsplit/pull/114. Так что используйте

gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'

Надеюсь это поможет. Дайте мне знать, если у вас все еще есть проблемы.

Другие вопросы по тегам