Python- PDFTables разбирает игнорирующие пробелы между столбцами

Question

Python- PDFTables разбирает игнорирующие пробелы между столбцами

Я пытаюсь разобрать таблицы PDF с помощью библиотеки Python pdf tables. Но это объединение столбцов и игнорирование пробелов.

Вот мой код:

pdf_page = get_pdf_page(fileobj, page)
tables = page_to_tables(pdf_page)

Структура таблиц в pdf файлах:

Выход:

0

python parsing pdf pdf-parsing

Источник

user4950341 03 апр '18 в 05:46

1 ответ

Другие вопросы по тегам python parsing pdf pdf-parsing

user10042929 10 авг '18 в 10:34 2018-08-10 10:34 · Answer 1 · 2018-08-10 10:34

Вы можете избежать некоторого разочарования в pdf, если поймете, что это%, и вы легко можете прочитать любое число от 9 до 100: чтение цифр, пока у вас не появится комбинация из 2 цифр (от 11 до 99) или комбинации из 1 цифры (от 0 до 9) или 10. Если у вас есть 10, то вы можете добавить 0, но не любое другое число, кроме 0, к 3-й цифре строки.

Я выражаю себя лучше на питоне, чем на английском. Надеюсь, это поможет вам:

def split(str):
    number = '0'
    numbers = []
    for char in str:
        if int(char) == 0 and int(number) == 10:
            numbers.append(int(number + char))
            number = '0'
        elif int(number) > 9 and int(number) < 100 and int(char) != 0:
            numbers.append(int(number))
            number = char
        elif int(number) >= 0 and int(number) < 10:
            number = number + char
    if int(number) > 0:
        numbers.append(int(number))
    return numbers

Например, с этим кодом, если я звоню с:

split('25106387100')

это возвращается

[25, 10, 63, 87, 100]

Затем с помощью этого кода вы можете разбить любую строку на числа от 10 до 100, теперь проблема заключается в том, что если вам нужно разделить однозначные числа, в этом случае вы можете добавить условное условие внутри 0-9, чтобы определить, является ли 'isdigit()' в формате pdf с положением цифры, сводящим к минимуму обработку pdf