Извлечь текст определенного шрифта из файла docx
Я использую Python 3.4 вместе с python-docx
библиотека для работы .docx
файлы. Мне удалось извлечь текст из документа. Но моя цель - извлечь только текст с определенным шрифтом (и изменить его).
Я искал это в документации библиотеки последние два дня безрезультатно.
Кто-нибудь здесь имеет опыт работы с этой библиотекой, если так, то могли бы они указать мне правильное направление.
1 ответ
В настоящий момент, python-docx
только имеет возможность применить шрифт, используя стиль. Вы можете обнаружить прогоны, имеющие определенный стиль, например:
document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
for run in paragraph.runs:
if run.style == style_I_want:
print run.text
Если специальные шрифты применяются с использованием стиля абзаца, вы можете использовать это:
document = Document('having-fonts.docx')
for paragraph in document.paragraphs:
if paragraph.style == style_I_want:
print paragraph.text
Если вы можете сказать больше о деталях, я могу быть более конкретным.