docsplit gem pdf to text
Ну, в основном у меня есть те же проблемы, что и здесь: http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ Но решение, которое они предлагают в docsplit, не не работает
Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})
опция:pdf_opts => '-layout' ничего не делает, и я не могу найти документацию по таким параметрам, поэтому я получаю по одному слову на строку в выходном текстовом файле.
Кто-нибудь знает, как получить точный текстовый файл?
Спасибо
1 ответ
Решение
Если вы читаете пост в блоге тщательно внутреннюю обработку
:pdf_opts => ‘-layout’
пока не поддерживается основной веткой docsplit gem. Для этого вам нужно использовать https://github.com/documentcloud/docsplit/pull/114. Так что используйте
gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'
Надеюсь это поможет. Дайте мне знать, если у вас все еще есть проблемы.