Python- PDFTables разбирает игнорирующие пробелы между столбцами

Я пытаюсь разобрать таблицы PDF с помощью библиотеки Python pdf tables. Но это объединение столбцов и игнорирование пробелов.

Вот мой код:

pdf_page = get_pdf_page(fileobj, page)
tables = page_to_tables(pdf_page)

Структура таблиц в pdf файлах: Структура таблиц в pdf файлах

Выход: Расчесывать элементы столбцов, игнорируя пробелы в первых 6 столбцах, следующий правильный

1 ответ

Вы можете избежать некоторого разочарования в pdf, если поймете, что это%, и вы легко можете прочитать любое число от 9 до 100: чтение цифр, пока у вас не появится комбинация из 2 цифр (от 11 до 99) или комбинации из 1 цифры (от 0 до 9) или 10. Если у вас есть 10, то вы можете добавить 0, но не любое другое число, кроме 0, к 3-й цифре строки.

Я выражаю себя лучше на питоне, чем на английском. Надеюсь, это поможет вам:

def split(str):
    number = '0'
    numbers = []
    for char in str:
        if int(char) == 0 and int(number) == 10:
            numbers.append(int(number + char))
            number = '0'
        elif int(number) > 9 and int(number) < 100 and int(char) != 0:
            numbers.append(int(number))
            number = char
        elif int(number) >= 0 and int(number) < 10:
            number = number + char
    if int(number) > 0:
        numbers.append(int(number))
    return numbers

Например, с этим кодом, если я звоню с:

split('25106387100')

это возвращается

[25, 10, 63, 87, 100]

Затем с помощью этого кода вы можете разбить любую строку на числа от 10 до 100, теперь проблема заключается в том, что если вам нужно разделить однозначные числа, в этом случае вы можете добавить условное условие внутри 0-9, чтобы определить, является ли 'isdigit()' в формате pdf с положением цифры, сводящим к минимуму обработку pdf

Другие вопросы по тегам