Разбор файла.doc (Word) с помощью скрипта Python (Unix)

Возможный дубликат:
извлечение текста из файлов MS Word в Python

Я хочу разобрать (чтобы выполнить поиск по выражению) файл.doc со скриптом на python. Он работает на Unix-машине.

Кто-нибудь может помочь?

2 ответа

Решение

Вы можете взглянуть на этот проект: python-docx. После загрузки библиотеки вы можете запустить python example-extracttext.py docfile.docx textfile.txt | grep some-expression в оболочке. Конечно, вы также можете сделать более сложный поиск в коде Python, когда это необходимо.

Недостатком python-docx является то, что в настоящее время он поддерживает только ms-Word 2007/2008, если это касается вас, я рекомендую antiword, который поддерживает Microsoft Word версий 2, 6, 7, 97, 2000, 2002 и 2003. На самом деле я имею в виду использовал это в моем vimrc, чтобы иметь возможность просматривать файлы ms-word в редакторе VIM. Хотя это не скрипт Python, его легко вызвать из Python.

Вы можете использовать, PyUno

Образец,

# HelloWorld python script for the scripting framework

def HelloWorldPython( ):
    """Prints the string 'Hello World(in Python)' into the current document"""
#get the doc from the scripting context which is made available to all scripts
    model = XSCRIPTCONTEXT.getDocument()
#get the XText interface
    text = model.Text
#create an XTextRange at the end of the document
    tRange = text.End
#and set the string
    tRange.String = "Hello World (in Python)"
    return None

Другое, образцы PyUNO

Другие вопросы по тегам