Чтение файлов составного документа V2 (MSG) в Ubuntu

У меня большой дамп данных из учетной записи электронной почты outlook, который целиком находится в файлах.msg. Быстрый вызов метода файлов Ubuntu показал, что это были документы Composite File File V2 (что бы это ни значило). Я действительно хотел бы иметь возможность читать эти файлы в виде открытого текста. Это вообще возможно?

Обновление: Оказалось, что было не совсем возможно сделать то, что я хотел для крупномасштабного интеллектуального анализа данных на файлах такого типа, что было обломом. Если вы столкнулись с той же проблемой, я создал библиотеку для решения этой проблемы. https://github.com/Slater-Victoroff/msgReader

Документация не очень хорошая, но это довольно маленькая библиотека, поэтому она должна быть понятна.

1 ответ

Решение

Я столкнулся с той же проблемой этим утром. Я не нашел никакой информации о формате файла, но было возможно извлечь необходимую информацию из файла, используя строки и grep:

strings -e l *.msg | grep pattern

-El (это маленький L) конвертируется из UTF-16.

Это будет работать только в том случае, если вы можете извлечь нужные данные из файла (т. Е. Все необходимые строки содержат стандартную строку или шаблон).

Другие вопросы по тегам