Недостатки использования встроенного Spark в приложении

У меня есть случай использования, когда я запускаю локальную искру (встроенную) внутри сервера приложений, а не собираюсь работать на сервере или ядре работы покоя. Потому что первый (встроенная искра) имеет очень низкую задержку по сравнению с другими. Я заинтересован в

  • Недостатки этого подхода, если таковые имеются.
  • Может ли быть использовано в производстве?

PS Низкая задержка является приоритетом здесь.

РЕДАКТИРОВАТЬ: Размер данных, обрабатываемых в большинстве случаев будет менее 100 МБ.

1 ответ

Я не думаю, что это недостаток вообще. Если вы посмотрите на реализацию Hive Thriftserver в самом проекте Spark, они также управляют SQLContext и т.д., в процессе Hive Server. Это особенно актуально, если объем данных невелик, и драйвер может с этим легко справиться. Так что я бы тоже увидел в этом подсказку, что это нормально для производственного использования.

Но я полностью согласен с тем, что документация или совет в целом о том, как интегрировать искру в интерактивное приложение, ориентированное на клиента, не хватает информации для конвейеров BigData.

Другие вопросы по тегам