Очистить или отфильтровать данные
Я использую потоковую искру, где я использую приемник Flume.
Потоковые события состоят из множества полей, которые мне не нужны. Итак, я хочу отфильтровать это.
Я просто хочу проверить, какое место лучше фильтровать данные:
- Применяя перехватчик потока для изменения данных, а затем передавая их искру или потоковую передачу.
- Применение фильтрации на DStream в Spark Streaming.
Заранее спасибо.
1 ответ
Оба варианта будут работать. В зависимости от двух вещей вы можете решить -
- Flume Interceptor - это более свободный способ сделать это.
- Поток искры будет быстрее.
Если вы получаете много событий в секунду, я бы сказал, что нужно использовать потоковое искрение, а если это не так, то использовать перехватчики потока.