Читайте специальные символы и шрифты из PDF, используя Python

У меня есть PDF, в котором некоторые строки таблицы содержат специальные символы и шрифты, например. Есть ли способ прочитать их правильно.

from tabula import read_pdf

df = read_pdf("Tables PDF.pdf", pages = '5', lattice = True, multiple_tables = True, encoding = 'utf-8-sig')

Я пробовал несколько типов кодировок utf-8, ascii, utf-8-sig, ISO-8859-1, Дайте мне знать, есть ли другой выход.

Также попытался прочитать одно из значений отдельно и внести изменения, используя:

df1.iloc[3, 6] = df1.iloc[3, 6].encode("utf-8", "replace")

Не сработало. Любая помощь будет оценена.

python-2.7 tabula

Источник

user9710042 22 май '18 в 10:45

0 ответов

Другие вопросы по тегам python-2.7 tabula