Альтернатива методу FindMimeFromData в Urlmon.dll, который имеет больше типов MIME

Метод FindMimeFromData доступен через Windows DLL Urlmon.dll способен определять тип MIME заданных данных, хранящихся в памяти, с учетом первых 256 байтов массива байтов, в котором хранятся такие данные.

Однако после прочтения его документации я обнаружил MIME Type Detection в Windows Internet Explorer, где я мог найти типы MIME, которые этот метод способен распознать. Смотрите список. Как видите, этот метод ограничен 26 типами MIME.

Поэтому мне было интересно, может ли кто-нибудь указать мне другой метод с большим количеством типов MIME или, альтернативно, другой метод / класс, в котором я смогу включить типы MIME, которые я считаю подходящими.

Спасибо.

4 ответа

Решение

Поэтому мне было интересно, может ли кто-нибудь указать мне другой метод с большим количеством типов MIME или, альтернативно, другой метод / класс, в котором я смогу включить типы MIME, которые я считаю подходящими.

Я использую гибрид Winista и URLMon для определения реального формата загружаемых файлов.

Загрузите Winista: http://www.netomatix.com/Products/DocumentManagement/MimeDetector.aspx

Или загрузите проект с помощью URLMon здесь: https://github.com/MeaningOfLights/MimeDetect

Виниста MIME Обнаружение

Скажем, кто-то переименовывает exe-файл с расширением jpg, вы все равно можете определить "настоящий" формат файла с помощью двоичного анализа. Он не обнаруживает SWF или FLV, но работает практически со всеми другими хорошо известными форматами + вы можете получить шестнадцатеричный редактор и добавить больше файлов, которые он может обнаружить.

File Magic

Winista обнаруживает настоящий MIME-тип, используя XML-файл "mime-type.xml", который содержит информацию о типах файлов и сигнатурах, используемых для идентификации содержимого type.eg:

<!--
 !   Audio primary type
 ! -->

<mime-type name="audio/basic"
           description="uLaw/AU Audio File">
    <ext>au</ext><ext>snd</ext>
    <magic offset="0" type="byte" value="2e736e64000000"/>
</mime-type>

<mime-type name="audio/midi"
           description="Musical Instrument Digital Interface MIDI-sequention Sound">
    <ext>mid</ext><ext>midi</ext><ext>kar</ext>
    <magic offset="0" value="MThd"/>
</mime-type>

<mime-type name="audio/mpeg"
           description="MPEG Audio Stream, Layer III">
    <ext>mp3</ext><ext>mp2</ext><ext>mpga</ext>
    <magic offset="0" value="ID3"/>
</mime-type>

Когда Winista не может определить настоящий формат файла, я прибегаю к методу URLMon:

public class urlmonMimeDetect
{
    [DllImport(@"urlmon.dll", CharSet = CharSet.Auto)]
    private extern static System.UInt32 FindMimeFromData(
        System.UInt32 pBC,
        [MarshalAs(UnmanagedType.LPStr)] System.String pwzUrl,
        [MarshalAs(UnmanagedType.LPArray)] byte[] pBuffer,
        System.UInt32 cbSize,
        [MarshalAs(UnmanagedType.LPStr)] System.String pwzMimeProposed,
        System.UInt32 dwMimeFlags,
        out System.UInt32 ppwzMimeOut,
        System.UInt32 dwReserverd
    );

public string GetMimeFromFile(string filename)
{
    if (!File.Exists(filename))
        throw new FileNotFoundException(filename + " not found");

    byte[] buffer = new byte[256];
    using (FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read))
    {
        if (fs.Length >= 256)
            fs.Read(buffer, 0, 256);
        else
            fs.Read(buffer, 0, (int)fs.Length);
    }
    try
    {
        System.UInt32 mimetype;
        FindMimeFromData(0, null, buffer, 256, null, 0, out mimetype, 0);
        System.IntPtr mimeTypePtr = new IntPtr(mimetype);
        string mime = Marshal.PtrToStringUni(mimeTypePtr);
        Marshal.FreeCoTaskMem(mimeTypePtr);
        return mime;
    }
    catch (Exception e)
    {
        return "unknown/unknown";
    }
}
}

Изнутри метода Winista я возвращаюсь к URLMon здесь:

   public MimeType GetMimeTypeFromFile(string filePath)
    {
        sbyte[] fileData = null;
        using (FileStream srcFile = new FileStream(filePath, FileMode.Open, FileAccess.Read))
        {
            byte[] data = new byte[srcFile.Length];
            srcFile.Read(data, 0, (Int32)srcFile.Length);
            fileData = Winista.Mime.SupportUtil.ToSByteArray(data);
        }

        MimeType oMimeType = GetMimeType(fileData);
        if (oMimeType != null) return oMimeType;

        //We haven't found the file using Magic (eg a text/plain file)
        //so instead use URLMon to try and get the files format
        Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect urlmonMimeDetect = new Winista.MimeDetect.URLMONMimeDetect.urlmonMimeDetect();
        string urlmonMimeType = urlmonMimeDetect.GetMimeFromFile(filePath);
        if (!string.IsNullOrEmpty(urlmonMimeType))
        {
            foreach (MimeType mimeType in types)
            {
                if (mimeType.Name == urlmonMimeType)
                {
                    return mimeType;
                }
            }
        }

        return oMimeType;
    }

Виниста из Нетоматикс. AFAIK - это переписывание C# на основе проекта Java с открытым исходным кодом в начале 2000-х годов. Наслаждайтесь!

Вы также можете использовать метод Registry или метод .Net 4.5, упомянутый в этом посте, на который ссылается Paul Zahra, но Winista - лучшее ИМХО.

ОБНОВИТЬ:

Для настольных приложений вы можете обнаружить, что WindowsAPICodePack работает лучше:

using Microsoft.WindowsAPICodePack.Shell;
using Microsoft.WindowsAPICodePack.Shell.PropertySystem;

private static string GetFilePropertyItemTypeTextValueFromShellFile(string filePathWithExtension)
{
   var shellFile = ShellFile.FromFilePath(filePathWithExtension);
   var prop = shellFile.Properties.GetProperty(PItemTypeTextCanonical);
   return prop.FormatForDisplay(PropertyDescriptionFormatOptions.None);
}

После нескольких часов поисков эластичного раствора. Я взял решение @JeremyThompson, адаптировал его к фреймворкам.net core/.net 4.5 и поместил в пакет nuget.

   //init
   var mimeTypes = new MimeTypes();

   //usage by filepath
   var mimeType1 = mimeTypes.GetMimeTypeFromFile(filePath);

   //usage by bytearray
   var mimeType2 = mimeTypes.GetMimeTypeFromFile(bytes);

В этом посте есть множество возможных решений, которые, по крайней мере, дадут вам пищу для размышлений.

Кажется, что единственный реальный способ сделать это - прочитать его в двоичном виде и затем выполнить сравнение, независимо от того, объявлены ли типы MIME жестко заданными или вы полагаетесь на собственные доступные типы MIME / реестр машин.

Только что нашел . На самом деле это хорошая альтернатива, которая отлично работает и в приложениях, ориентированных на Linux.

Контекст

Urlmon.dllне подходит для Linux, поэтому не будет работать для многоплатформенных приложений. Я нашел эту статью в Microsoft Docs. Он делает ссылку на базу данных сигнатур файлов , которая является довольно хорошим справочником по типам файлов (518 к тому времени, когда я пишу это).

Покопавшись еще немного я нашел вот этот довольно неплохой проект: nuget here . Он также достаточно расширяемый, так что вы можете, например, получить все нужные вам типы с filesignatures.net и создать свои собственные модели типов.

Применение

Вы можете либо проверить любой определенный тип

      var format = inspector.DetermineFileFormat(stream);

if(format is Pdf) {
  // Just matches Pdf
}

if(format is OfficeOpenXml) {
  // Matches Word, Excel, Powerpoint
}

if(format is Image) {
  // Matches any image format
}

или использовать некоторые метаданные, которые он приносит, на основе соответствующего типа файла

      var fileFormat = _fileFormatInspector.DetermineFileFormat(stream);
var mime = fileFormat?.MediaType;

Расширяемость

Вы можете определить любое количество типов, наследуемых от FileFormatи настроить FileFormatLocatorчтобы загрузить их, когда это необходимо

      var assembly = typeof(CustomFileFormat).GetTypeInfo().Assembly;

// Just the formats defined in the assembly containing CustomFileFormat
var customFormats = FileFormatLocator.GetFormats(assembly);

// Formats defined in the assembly and all the defaults
var allFormats = FileFormatLocator.GetFormats(assembly, true);

Подробности на FileSignaturesGithub проектаFileSignatures

Другие вопросы по тегам