gzipstream распаковывает UNIX-файл без ошибок

Моя декомпрессия работала отлично годами!

Но теперь у меня есть несколько файлов, которые прерываются при распаковке после нескольких чтений.

Декомпрессия будет прервана после 694 записей, но есть 1 829 768 записей!

Я не получаю никакой ошибки от GZipStream.

Боюсь, проблема не в коде, а в ошибке или отсутствующей функции в GZipStream от Microsoft.

Я предполагаю, что файл был сжат с использованием некоторой среды UNIX.

Я могу распаковать его из оболочки, используя WinRar или ZIP, но я не могу распаковать их "на лету", используя GZipStream.

Разархивирование сначала и последующая обработка, конечно, возможны, но не вариант, потому что некоторые из этих файлов слишком большие. (Терра байты). Это потратило бы много времени.

    using System;
    using System.Data;
    using System.IO;
    using System.IO.Compression;

    public static void Unpack(string p_sZippedFileName)
    {
        const int cRecordLenght = 986;
        byte[] ba = new byte[cRecordLenght]; 
        int iRecordCounter = 0;

        using (FileStream fileStream = new FileStream(p_sZippedFileName, FileMode.Open, FileAccess.Read))
        using (GZipStream zipStream = new GZipStream(fileStream, CompressionMode.Decompress))
        {
            while (zipStream.Read(ba, 0, cRecordLenght) != 0)
            {
                iRecordCounter++;
            }
            Console.WriteLine("\nfinished after " + iRecordCounter.ToString() + " records ");
        }
    }

    static void Main(string[] args)
    {
        Unpack(@"MyGzFile.gz");
    }

Размер сжатого файла составляет 15 МБ, а несжатого - 1,7 ГБ. Должно быть 1'829'768 записей! Не 694!

К сожалению, вам нужно скачать файл данных 15 МБ, чтобы увидеть этот эффект.

Загрузите файл UNIX, который вызывает проблемы распаковки здесь

2 ответа

Этот файл на самом деле объединяет 175 GZIP-потоков. Конкатенация действительных потоков gzip также является допустимым потоком gzip, в соответствии со стандартом, поэтому утилиты автоматически распаковывают следующий внутренний поток gzip по окончании последнего. Однако используемая вами библиотека останавливается в конце первого потока gzip.

Все, что вам нужно сделать, это повторно использовать GZipStream, пока не будет использован весь файл.

Вот встроенные потоки GZIP, как показано pigz -ltv:

method    check    timestamp    compressed   original reduced  name
gzip 8  d3b504b5  Sep  5 16:15        5729     684284   99.2%  BFSQ101_1_hot...
gzip 8  ae275c49  Sep  5 16:15        6136     751332   99.2%  <...>
gzip 8  bdfc1fbe  Sep  5 16:15        2941     337212   99.1%  <...>
gzip 8  cc98f315  Sep  5 16:15        5185     567936   99.1%  <...>
gzip 8  9e5bd1e1  Sep  5 16:15        7765     739500   98.9%  <...>
gzip 8  3fb391df  Sep  5 16:15       33053    3184780   99.0%  <...>
gzip 8  b6949166  Sep  5 16:15       30367    3916392   99.2%  <...>
gzip 8  99e23f1c  Sep  5 16:15       21864    2879120   99.2%  <...>
gzip 8  aa1f465e  Sep  5 16:15       20451    2009468   99.0%  <...>
gzip 8  3d1235e8  Sep  5 16:15       35202    3445084   99.0%  <...>
gzip 8  88aa59b6  Sep  5 16:15        8877    1003748   99.1%  <...>
gzip 8  de849a6c  Sep  5 16:15       63357    8693562   99.3%  <...>
gzip 8  d16e00f0  Sep  5 16:15       20470    2888980   99.3%  <...>
gzip 8  65fdb6e3  Sep  5 16:15       77278    9244736   99.2%  <...>
gzip 8  f03ff362  Sep  5 16:15       20470    2888980   99.3%  <...>
gzip 8  1cc8c3c5  Sep  5 16:15      326938   44740736   99.3%  <...>
gzip 8  4f44a72d  Sep  5 16:15       65879    8338602   99.2%  <...>
gzip 8  dcefd273  Sep  5 16:15      422230   55740552   99.2%  <...>
gzip 8  5b465e02  Sep  5 16:15      483248   65961428   99.3%  <...>
gzip 8  47ea3377  Sep  5 16:15      268189   36305506   99.3%  <...>
gzip 8  87c40a36  Sep  5 16:15      492551   69229032   99.3%  <...>
gzip 8  e6ef226a  Sep  5 16:15       68290    8655108   99.2%  <...>
gzip 8  ed61760e  Sep  5 16:15      552074   75590704   99.3%  <...>
gzip 8  b6f9ba3c  Sep  5 16:15       52437    6164472   99.1%  <...>
gzip 8  543025f6  Sep  5 16:15       90414    9592794   99.1%  <...>
gzip 8  92ee391c  Sep  5 16:15      164410   20791782   99.2%  <...>
gzip 8  b7daa869  Sep  5 16:15      138439   17144568   99.2%  <...>
gzip 8  9e8f1d9a  Sep  5 16:15      159826   19611540   99.2%  <...>
gzip 8  9dd9ab4e  Sep  5 16:15      101783   12672072   99.2%  <...>
gzip 8  bf1da9bf  Sep  5 16:15      166638   21017576   99.2%  <...>
gzip 8  1fd50892  Sep  5 16:15       26224    3107872   99.2%  <...>
gzip 8  bba28914  Sep  5 16:15       20300    2677976   99.2%  <...>
gzip 8  a24aa94c  Sep  5 16:15        4449     500888   99.1%  <...>
gzip 8  ea7123bb  Sep  5 16:15       83639   10446670   99.2%  <...>
gzip 8  a069401a  Sep  5 16:15      166892   23182832   99.3%  <...>
gzip 8  da4e52d0  Sep  5 16:15       47183    6617046   99.3%  <...>
gzip 8  1216a764  Sep  5 16:15      361812   46365664   99.2%  <...>
gzip 8  d3323b7d  Sep  5 16:15       67408    8609752   99.2%  <...>
gzip 8  d4f43a26  Sep  5 16:15       70830    8303106   99.1%  <...>
gzip 8  b44e6519  Sep  5 16:15      213527   26468184   99.2%  <...>
gzip 8  128809df  Sep  5 16:15      220496   24231936   99.1%  <...>
gzip 8  be81d102  Sep  5 16:15      191825   26160552   99.3%  <...>
gzip 8  5f4eaa67  Sep  5 16:15      442912   59668776   99.3%  <...>
gzip 8  8c75e7d6  Sep  5 16:15      256035   30062154   99.1%  <...>
gzip 8  382ce67c  Sep  5 16:15      293235   37140648   99.2%  <...>
gzip 8  909d5680  Sep  5 16:15       37789    4632228   99.2%  <...>
gzip 8  0be66753  Sep  5 16:15       58300    6980880   99.2%  <...>
gzip 8  105487b8  Sep  5 16:15       76587    9386720   99.2%  <...>
gzip 8  54040854  Sep  5 16:15       37060    4823512   99.2%  <...>
gzip 8  c09af134  Sep  5 16:15        1094     107474   99.0%  <...>
gzip 8  ef2973a4  Sep  5 16:15        2838     321436   99.1%  <...>
gzip 8  7043559d  Sep  5 16:15       10112    1248276   99.2%  <...>
gzip 8  65f07ae4  Sep  5 16:15       24974    2567544   99.0%  <...>
gzip 8  aaf51505  Sep  5 16:15       14963    1484916   99.0%  <...>
gzip 8  33b3a1f3  Sep  5 16:15        2258     203116   98.9%  <...>
gzip 8  2b359a91  Sep  5 16:15        3501     452574   99.2%  <...>
gzip 8  20128129  Sep  5 16:15        7028     709920   99.0%  <...>
gzip 8  28a17134  Sep  5 16:15        6230     759220   99.2%  <...>
gzip 8  455551c1  Sep  5 16:15       26686    2283576   98.8%  <...>
gzip 8  7ecb639d  Sep  5 16:15       17271    1656480   99.0%  <...>
gzip 8  7c24a95a  Sep  5 16:15       10855    1400120   99.2%  <...>
gzip 8  2890071c  Sep  5 16:15        1685     134096   98.7%  <...>
gzip 8  a427db4e  Sep  5 16:15       25814    3395784   99.2%  <...>
gzip 8  5676ccd5  Sep  5 16:15       26993    3056600   99.1%  <...>
gzip 8  8fe1db04  Sep  5 16:15       41813    3892728   98.9%  <...>
gzip 8  4dcb3991  Sep  5 16:15      101698    9197408   98.9%  <...>
gzip 8  b18b43de  Sep  5 16:15       52157    4500104   98.8%  <...>
gzip 8  7987b02e  Sep  5 16:15       71437    7324008   99.0%  <...>
gzip 8  a376a3e7  Sep  5 16:15       31074    2927434   98.9%  <...>
gzip 8  6e4dce06  Sep  5 16:15      123099   14076136   99.1%  <...>
gzip 8  341979f0  Sep  5 16:15      288225   21903990   98.7%  <...>
gzip 8  ea761b90  Sep  5 16:15       47784    4192472   98.9%  <...>
gzip 8  4ca18278  Sep  5 16:15      204873   21037296   99.0%  <...>
gzip 8  6bf8d60b  Sep  5 16:15      841722   71006790   98.8%  <...>
gzip 8  c70cec31  Sep  5 16:15      201080   20694168   99.0%  <...>
gzip 8  623ff1a5  Sep  5 16:15       51395    4851120   98.9%  <...>
gzip 8  99cb59b2  Sep  5 16:15       46544    4456720   99.0%  <...>
gzip 8  ba4c92ae  Sep  5 16:15       51541    4740688   98.9%  <...>
gzip 8  eec6606f  Sep  5 16:15       51052    5492020   99.1%  <...>
gzip 8  f2c2b159  Sep  5 16:15      225744   25294844   99.1%  <...>
gzip 8  e6c56db8  Sep  5 16:15       80392    6810302   98.8%  <...>
gzip 8  0a47cbee  Sep  5 16:15       95976   10349056   99.1%  <...>
gzip 8  d53102ce  Sep  5 16:15      165369   19276300   99.1%  <...>
gzip 8  baa32abf  Sep  5 16:15      251861   21441556   98.8%  <...>
gzip 8  722a4e05  Sep  5 16:15       23970    2390064   99.0%  <...>
gzip 8  eac99b0a  Sep  5 16:15       88130    7671080   98.9%  <...>
gzip 8  da942a4a  Sep  5 16:15       44471    5105508   99.1%  <...>
gzip 8  ced9902a  Sep  5 16:15       95539    8428328   98.9%  <...>
gzip 8  51f34298  Sep  5 16:15       43365    3423392   98.7%  <...>
gzip 8  86ab080e  Sep  5 16:15      168730   13053654   98.7%  <...>
gzip 8  d73827bd  Sep  5 16:15      133057   15227784   99.1%  <...>
gzip 8  84528a4b  Sep  5 16:15       33025    3265632   99.0%  <...>
gzip 8  62ea51c1  Sep  5 16:15       60933    6927636   99.1%  <...>
gzip 8  295c9880  Sep  5 16:15       29900    2912644   99.0%  <...>
gzip 8  e78a773e  Sep  5 16:15         892      41412   97.8%  <...>
gzip 8  11e4a15e  Sep  5 16:15      151748   16496766   99.1%  <...>
gzip 8  11207fbd  Sep  5 16:15      222248   26417898   99.2%  <...>
gzip 8  82fa34c7  Sep  5 16:15      110255   13269588   99.2%  <...>
gzip 8  8bea1780  Sep  5 16:15      450044   41707800   98.9%  <...>
gzip 8  01cccc85  Sep  5 16:15      285831   31337052   99.1%  <...>
gzip 8  e7f8bbcb  Sep  5 16:15      212141   22906752   99.1%  <...>
gzip 8  94d0062b  Sep  5 16:15      109822   12459096   99.1%  <...>
gzip 8  0ab76f7d  Sep  5 16:15      374525   33351450   98.9%  <...>
gzip 8  9130a5e9  Sep  5 16:15      218858   16550010   98.7%  <...>
gzip 8  e388cba6  Sep  5 16:15      471713   43913482   98.9%  <...>
gzip 8  3a0d1dfb  Sep  5 16:15      459824   43920384   99.0%  <...>
gzip 8  91760e55  Sep  5 16:15      332786   39882714   99.2%  <...>
gzip 8  081ce788  Sep  5 16:15      305461   28560476   98.9%  <...>
gzip 8  16b514e2  Sep  5 16:15       13501    1337016   99.0%  <...>
gzip 8  b25c8acc  Sep  5 16:15       39768    3824694   99.0%  <...>
gzip 8  f0c73cf0  Sep  5 16:15       26173    2549796   99.0%  <...>
gzip 8  76d0f641  Sep  5 16:15       13254    1309408   99.0%  <...>
gzip 8  a40f8b76  Sep  5 16:15       40375    3842442   98.9%  <...>
gzip 8  1abee777  Sep  5 16:15       25598    2480776   99.0%  <...>
gzip 8  6ece3ccb  Sep  5 16:15       23133    2715444   99.1%  <...>
gzip 8  d2636064  Sep  5 16:15       28378    2786436   99.0%  <...>
gzip 8  5498097b  Sep  5 16:15       60657    5843036   99.0%  <...>
gzip 8  c6b77dac  Sep  5 16:15       54419    5353980   99.0%  <...>
gzip 8  8e7a1860  Sep  5 16:15       11370    1153620   99.0%  <...>
gzip 8  e463b182  Sep  5 16:15        8813    1043188   99.2%  <...>
gzip 8  564990ea  Sep  5 16:15        9313    1100376   99.2%  <...>
gzip 8  192a05bf  Sep  5 16:15       13451    1248276   98.9%  <...>
gzip 8  4982aad7  Sep  5 16:15        1685     147900   98.9%  <...>
gzip 8  aeda5155  Sep  5 16:15       15587    1833960   99.2%  <...>
gzip 8  8613238d  Sep  5 16:15        3567     295800   98.8%  <...>
gzip 8  928ff4ce  Sep  5 16:15       13135    1490832   99.1%  <...>
gzip 8  b3ec3f6f  Sep  5 16:15        4611     489056   99.1%  <...>
gzip 8  0df0f802  Sep  5 16:15       10261    1133900   99.1%  <...>
gzip 8  4049e745  Sep  5 16:15        1527     147900   99.0%  <...>
gzip 8  fd24e643  Sep  5 16:15       19300    2082432   99.1%  <...>
gzip 8  bb8a811a  Sep  5 16:15        1634     181424   99.1%  <...>
gzip 8  7813a0a0  Sep  5 16:15       35854    3332680   98.9%  <...>
gzip 8  d33c8708  Sep  5 16:15        8095     865708   99.1%  <...>
gzip 8  1ee8f774  Sep  5 16:15        9779    1072768   99.1%  <...>
gzip 8  553a9e50  Sep  5 16:15       10424    1112208   99.1%  <...>
gzip 8  00b5fa47  Sep  5 16:15        8579    1064880   99.2%  <...>
gzip 8  08241c48  Sep  5 16:15       10274    1072768   99.0%  <...>
gzip 8  76d80a6b  Sep  5 16:15        9859     928812   98.9%  <...>
gzip 8  35b49c5d  Sep  5 16:15        5509     496944   98.9%  <...>
gzip 8  a8047163  Sep  5 16:15        2201     266220   99.2%  <...>
gzip 8  ce6bbd8e  Sep  5 16:15        6933     932756   99.3%  <...>
gzip 8  bb2146ef  Sep  5 16:15        7116     958392   99.3%  <...>
gzip 8  c807d58a  Sep  5 16:15        4894     481168   99.0%  <...>
gzip 8  93f562cb  Sep  5 16:15        6542     836128   99.2%  <...>
gzip 8  7fb242eb  Sep  5 16:15       19818    2311184   99.1%  <...>
gzip 8  d112692f  Sep  5 16:15       15558    1517454   99.0%  <...>
gzip 8  a28d6731  Sep  5 16:15       11137    1181228   99.1%  <...>
gzip 8  e922c39b  Sep  5 16:15        6333     769080   99.2%  <...>
gzip 8  036f7259  Sep  5 16:15        7628     989944   99.2%  <...>
gzip 8  a2080a25  Sep  5 16:15       11757    1522384   99.2%  <...>
gzip 8  2003aee8  Sep  5 16:15        9109    1001776   99.1%  <...>
gzip 8  5932e9c1  Sep  5 16:15       10453    1202920   99.1%  <...>
gzip 8  1fcfa239  Sep  5 16:15        7629     989944   99.2%  <...>
gzip 8  7ff3cd6d  Sep  5 16:15        7616     989944   99.2%  <...>
gzip 8  52a70d28  Sep  5 16:15       17018    2062712   99.2%  <...>
gzip 8  51ed84ac  Sep  5 16:15       38403    4831400   99.2%  <...>
gzip 8  c6afdd2d  Sep  5 16:15       29520    3277464   99.1%  <...>
gzip 8  5394e776  Sep  5 16:15       59291    7933356   99.3%  <...>
gzip 8  428b60b0  Sep  5 16:15       22275    2449224   99.1%  <...>
gzip 8  cffab915  Sep  5 16:15       30942    3407616   99.1%  <...>
gzip 8  2499f8d0  Sep  5 16:15       11122    1387302   99.2%  <...>
gzip 8  32348d9c  Sep  5 16:15       56977    6704800   99.2%  <...>
gzip 8  2ce9d004  Sep  5 16:15       25986    3005328   99.1%  <...>
gzip 8  6f6c8dff  Sep  5 16:15       20414    2875176   99.3%  <...>
gzip 8  8c0f4f3e  Sep  5 16:15       17090    2204696   99.2%  <...>
gzip 8  c4e49446  Sep  5 16:15       45659    5324400   99.1%  <...>
gzip 8  7daad546  Sep  5 16:15       24152    3241968   99.3%  <...>
gzip 8  3a028387  Sep  5 16:15       85243    8566368   99.0%  <...>
gzip 8  b2da9025  Sep  5 16:15      360323   30704040   98.8%  <...>
gzip 8  d22669f8  Sep  5 16:15       82586    7409790   98.9%  <...>
gzip 8  f5b3c916  Sep  5 16:15       89830    9906342   99.1%  <...>
gzip 8  b75ed982  Sep  5 16:15      141070   12332888   98.9%  <...>
gzip 8  05cc92e8  Sep  5 16:15       51712    5825288   99.1%  <...>
gzip 8  9d5fc6ca  Sep  5 16:15      148927   12666156   98.8%  <...>
gzip 8  640d5cee  Sep  5 16:15       11492    1120096   99.0%  <...>

Вот как это работает.

        const int cRecordLenght = 986;
        const int cSpoolerLenght = 1000000;
        byte[] ba = new byte[cRecordLenght];
        byte[] baSpooler = new byte[cSpoolerLenght];

        int iRecordCounter = 0;
        int iFileCounter = 0;
        int iLenght = 0;

        long lLastSeekPosition = 0;
        long lSeekPosition = 0;

        using (FileStream fileStream = new FileStream(p_sZippedFileName, FileMode.Open, FileAccess.Read))
        {
            while (true)
            {
                fileStream.Seek(lSeekPosition, SeekOrigin.Begin);
                Console.Write("Stream begins at :" + lSeekPosition.ToString());

                using (GZipStream zipStream = new GZipStream(fileStream, CompressionMode.Decompress, true))
                {
                    while (zipStream.Read(ba, 0, cRecordLenght) > 0)
                    {
                        iRecordCounter++;
                    }
                    Console.WriteLine("\nStream: " + iFileCounter.ToString() + " Records: " + iRecordCounter.ToString() + " Pos: " + lSeekPosition.ToString() + " Pos2: " + lLastSeekPosition.ToString() +  " Len: " + ( lLastSeekPosition - lSeekPosition ).ToString() + " Len2: " + iLenght.ToString() );
                    iFileCounter++;
                }

                // where is the filepointer? Suche zwischen letzer Position und neuer Position nach 1f b8 08 08 
                // go back and look for "1f b8"
                lLastSeekPosition = fileStream.Position;
                fileStream.Seek(lSeekPosition + 4, SeekOrigin.Begin); // + 4 skip last 1F b8 08 08 pattern
                iLenght = fileStream.Read(baSpooler, 0, (int)(lLastSeekPosition - lSeekPosition));

                for (int i = 0; i < iLenght; i++)
                {
                    if ((baSpooler[i] == 0x1f) && (baSpooler[i + 1] == 0x8b) && (baSpooler[i + 2] == 0x08) && (baSpooler[i + 3] == 0x08))// Stream ends here (31 / 139)
                    {
                        lSeekPosition = lSeekPosition + i + 4;
                        break;
                    }
                }
            }
        }
Другие вопросы по тегам