Коэффициент сжатия LZW, LZ77 и других простых в реализации алгоритмов

Question

Коэффициент сжатия LZW, LZ77 и других простых в реализации алгоритмов

Я хочу сжать .txt файлы, которые содержат даты в yyyy-mm-dd hh:mm:ss формат и английские слова, которые иногда имеют тенденцию повторяться в разных строках.
Я прочитал несколько статей об алгоритме сжатия и обнаружил, что в моем случае кодирование на основе словаря лучше, чем кодирование на основе энтропии. Поскольку я хочу реализовать алгоритм самостоятельно, мне нужно что-то не очень сложное. Поэтому я обратил внимание на LZW и LZ77, но не могу выбирать между ними, потому что выводы из найденных статей противоречивы. Согласно некоторым статьям, у LZW более высокая степень сжатия, а по другим - лидер LZ77. Так что вопрос в том, какой из них, скорее всего, будет лучше в моем случае? Есть ли более простые в реализации алгоритмы, которые могут быть полезны для моей цели?

0

compression lzw lz77

Источник

user7263457 10 фев '19 в 23:34

1 ответ

Решение

Другие вопросы по тегам compression lzw lz77

user1180620 11 фев '19 в 06:07 2019-02-11 06:07 · Accepted Answer · 2019-02-11 06:07

LZW устарел. Современные и даже довольно старые компрессоры LZ77 превосходят LZW.

В любом случае, вы единственный, кто может ответить на ваш вопрос, поскольку только у вас есть примеры данных, которые вы хотите сжать. Просто поэкспериментируйте с различными методами сжатия (zstd, xz, lz4 и т. Д.) В своих данных и посмотрите, какое сочетание степени сжатия и скорости соответствует вашим потребностям.