Недостатки использования встроенного Spark в приложении
У меня есть случай использования, когда я запускаю локальную искру (встроенную) внутри сервера приложений, а не собираюсь работать на сервере или ядре работы покоя. Потому что первый (встроенная искра) имеет очень низкую задержку по сравнению с другими. Я заинтересован в
- Недостатки этого подхода, если таковые имеются.
- Может ли быть использовано в производстве?
PS Низкая задержка является приоритетом здесь.
РЕДАКТИРОВАТЬ: Размер данных, обрабатываемых в большинстве случаев будет менее 100 МБ.
1 ответ
Я не думаю, что это недостаток вообще. Если вы посмотрите на реализацию Hive Thriftserver в самом проекте Spark, они также управляют SQLContext
и т.д., в процессе Hive Server. Это особенно актуально, если объем данных невелик, и драйвер может с этим легко справиться. Так что я бы тоже увидел в этом подсказку, что это нормально для производственного использования.
Но я полностью согласен с тем, что документация или совет в целом о том, как интегрировать искру в интерактивное приложение, ориентированное на клиента, не хватает информации для конвейеров BigData.