Чтение файлов составного документа V2 (MSG) в Ubuntu
У меня большой дамп данных из учетной записи электронной почты outlook, который целиком находится в файлах.msg. Быстрый вызов метода файлов Ubuntu показал, что это были документы Composite File File V2 (что бы это ни значило). Я действительно хотел бы иметь возможность читать эти файлы в виде открытого текста. Это вообще возможно?
Обновление: Оказалось, что было не совсем возможно сделать то, что я хотел для крупномасштабного интеллектуального анализа данных на файлах такого типа, что было обломом. Если вы столкнулись с той же проблемой, я создал библиотеку для решения этой проблемы. https://github.com/Slater-Victoroff/msgReader
Документация не очень хорошая, но это довольно маленькая библиотека, поэтому она должна быть понятна.
1 ответ
Я столкнулся с той же проблемой этим утром. Я не нашел никакой информации о формате файла, но было возможно извлечь необходимую информацию из файла, используя строки и grep:
strings -e l *.msg | grep pattern
-El (это маленький L) конвертируется из UTF-16.
Это будет работать только в том случае, если вы можете извлечь нужные данные из файла (т. Е. Все необходимые строки содержат стандартную строку или шаблон).