Очистить или отфильтровать данные

Я использую потоковую искру, где я использую приемник Flume.

Потоковые события состоят из множества полей, которые мне не нужны. Итак, я хочу отфильтровать это.

Я просто хочу проверить, какое место лучше фильтровать данные:

  • Применяя перехватчик потока для изменения данных, а затем передавая их искру или потоковую передачу.
  • Применение фильтрации на DStream в Spark Streaming.

Заранее спасибо.

1 ответ

Оба варианта будут работать. В зависимости от двух вещей вы можете решить -

  1. Flume Interceptor - это более свободный способ сделать это.
  2. Поток искры будет быстрее.

Если вы получаете много событий в секунду, я бы сказал, что нужно использовать потоковое искрение, а если это не так, то использовать перехватчики потока.

Другие вопросы по тегам