Почему я получаю пустую БД от mbox?
Итак, у меня есть этот код, который берет файлы mbox и затем конвертирует их в базу данных sqlite. Тем не менее, я получаю пустую базу данных. Независимо от того, какой mbox я использую, результирующая база данных составляет 12 КБ. Когда я пытаюсь просмотреть / проанализировать базу данных, она ничего не дает, без информации или чего-либо еще, несмотря на то, что таблицы и ключи сделаны. но нет информации внутри него. В чем может быть проблема? это то, что mbox не был выбран сценарием, или что-то не так внутри цикла?
import mailbox
import os
import email
from bs4 import BeautifulSoup
import sqlite3
# Current working directory
cwd = os.path.dirname(os.path.realpath(__file__))
# First find all the mbox files using os.walk
mbox_path = cwd + '/mbox_files'
mbox_files = []
pattern = '*.mbox'
for root, dirs, files in os.walk(mbox_path):
for filename in fnmatch.filter(files, pattern):
mbox_files.append((filename, os.path.join(root, filename)))
# Now process each message in the folder
for mbox_file in mbox_files:
src_mbox = mailbox.mbox(mbox_file[1])
for msg in src_mbox:
sender = name_email(msg['From'])
recipient = name_email(msg['To'])
b = email.message_from_string(str(msg))
if b.is_multipart():
for payload in b.get_payload():
p = payload.get_payload()
if isinstance(p,list):
html_text = p[0]
else:
html_text = p
try:
# Remove any HTML tags, and any inline styles
soup = BeautifulSoup(str(html_text))
[s.extract() for s in soup('style')]
text = soup.text.strip()
except:
pass
# Just in case we get a plain text email
else:
text = b.get_payload()
row = [
None,
sender[0],
sender[1],
recipient[0],
recipient[1],
msg['Subject'],
topic,
msg['Date'],
msg['Message-ID'],
text
]
cur.execute("INSERT INTO emails VALUES(?,?,?,?,?,?,?,?,?,?);", row)
# A litle utility function that separates name and email from strings like '"Some Name" <some@email.com>'
def name_email(s):
if not s:
return None, None
pieces = s.split('<')
if len(pieces) > 1:
name = pieces[0].replace('"','').strip()
email = pieces[1].replace('>','')
else:
name = None
email = pieces[0].replace('>','')
return name,email
conn = sqlite3.connect(cwd + '/test.db')
cur = conn.cursor()
# Create the table.
cur.execute("DROP TABLE IF EXISTS emails")
cur.execute("CREATE TABLE emails(id INTEGER PRIMARY KEY, sender_name TEXT, sender_email TEXT, recipient_name TEXT, recipient_email TEXT, subject TEXT, conversation_topic TEXT, message_date TEXT, message_id TEXT, text_body TEXT)")
cur.execute("CREATE INDEX index_sender_name ON emails (sender_name)")