Оптимизация данных журнала Splunk

Я новичок в Splunk и хочу оптимизировать файлы данных журнала (выполнить сжатие без потерь), которые я добавлю в splunk. Поскольку данные должны быть текстовыми (не двоичными или какими-либо другими форматами), я не могу пойти на кодирование Хаффмана и т. Д. И не знаю, с чего начать.

Любая помощь / идея была бы отличной.

1 ответ

По данным Monitor файлы и каталоги:

Splunk Enterprise распаковывает архивные файлы перед их индексацией. Он может обрабатывать следующие распространенные типы архивных файлов: tar, gz, bz2, tar.gz, tgz, tbz, tbz2, zip и z.

Я предлагаю использовать любой из вышеперечисленных методов сжатия, а затем настроить Splunk для мониторинга файлов по имени файла или спецификации каталога с помощью пользовательского интерфейса или props.conf. Если по какой-то причине вам нужно использовать другой алгоритм сжатия, вы можете сделать это и затем указать Splunk использовать специальный unarchive_cmd во время индексного конвейера. Вы можете узнать больше об этом, посмотрев на props.conf.spec. Вот соответствующая часть:

unarchive_cmd = <string>
* Only called if invalid_cause is set to "archive".
* This field is only valid on [source::<source>] stanzas.
* <string> specifies the shell command to run to extract an archived source.
* Must be a shell command that takes input on stdin and produces output on stdout.
* Use _auto for Splunk's automatic handling of archive files (tar, tar.gz, tgz, tbz, tbz2, zip)
* This setting applies at input time, when data is first read by Splunk. 
  The setting is used on a Splunk system that has configured inputs acquiring the data.
* Defaults to empty.
Другие вопросы по тегам