Как обрабатывать разметку (HTML) в logstash
Я использую logstash с драйвером JDBC для массового импорта группы данных из SQL Server в Elasticsearch. (Конечная цель - сделать эти данные доступными для поиска из веб-интерфейса.)
Один из столбцов таблицы содержит теги HTML (<span id='blah'>
, <p class='foo'>
, так далее). Я хочу, чтобы содержимое было доступно для поиска, но теги игнорировались. То есть, если кто-то ищет слово "foo", документ, который содержит <p class='foo'>
НЕ должен подходить. С другой стороны, я хочу, чтобы весь контент, включая разметку, хранился в Elasticsearch.
Есть ли что-то, что я могу сделать в моем logstash .config
файл, чтобы Elasticsearch "знал", что это HTML-контент?