Извлечь текст определенного шрифта из файла docx

Я использую Python 3.4 вместе с python-docx библиотека для работы .docx файлы. Мне удалось извлечь текст из документа. Но моя цель - извлечь только текст с определенным шрифтом (и изменить его).

Я искал это в документации библиотеки последние два дня безрезультатно.

Кто-нибудь здесь имеет опыт работы с этой библиотекой, если так, то могли бы они указать мне правильное направление.

1 ответ

В настоящий момент, python-docx только имеет возможность применить шрифт, используя стиль. Вы можете обнаружить прогоны, имеющие определенный стиль, например:

document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
    for run in paragraph.runs:
        if run.style == style_I_want:
            print run.text

Если специальные шрифты применяются с использованием стиля абзаца, вы можете использовать это:

document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
    if paragraph.style == style_I_want:
        print paragraph.text

Если вы можете сказать больше о деталях, я могу быть более конкретным.

Другие вопросы по тегам