Разбор файла.doc (Word) с помощью скрипта Python (Unix)
Возможный дубликат:
извлечение текста из файлов MS Word в Python
Я хочу разобрать (чтобы выполнить поиск по выражению) файл.doc со скриптом на python. Он работает на Unix-машине.
Кто-нибудь может помочь?
2 ответа
Вы можете взглянуть на этот проект: python-docx. После загрузки библиотеки вы можете запустить python example-extracttext.py docfile.docx textfile.txt | grep some-expression
в оболочке. Конечно, вы также можете сделать более сложный поиск в коде Python, когда это необходимо.
Недостатком python-docx является то, что в настоящее время он поддерживает только ms-Word 2007/2008, если это касается вас, я рекомендую antiword, который поддерживает Microsoft Word версий 2, 6, 7, 97, 2000, 2002 и 2003. На самом деле я имею в виду использовал это в моем vimrc, чтобы иметь возможность просматривать файлы ms-word в редакторе VIM. Хотя это не скрипт Python, его легко вызвать из Python.
Вы можете использовать, PyUno
Образец,
# HelloWorld python script for the scripting framework
def HelloWorldPython( ):
"""Prints the string 'Hello World(in Python)' into the current document"""
#get the doc from the scripting context which is made available to all scripts
model = XSCRIPTCONTEXT.getDocument()
#get the XText interface
text = model.Text
#create an XTextRange at the end of the document
tRange = text.End
#and set the string
tRange.String = "Hello World (in Python)"
return None
Другое, образцы PyUNO