Можно ли использовать Spark с форматом файла ORC без Hive?

Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0.

Моя задача проста. Сохраните данные в формате файла ORC, затем используйте Spark для обработки данных. Чтобы добиться этого, я делаю это:

  1. Создать таблицу Hive через HiveQL
  2. Используйте Spark.SQL("выберите... из...") для загрузки данных в фрейм данных
  3. Обрабатывать данные

Мои вопросы: 1. Какова роль Улья за сценой? 2. Можно ли пропустить Hive?

1 ответ

Вы можете пропустить Hive и использовать SparkSQL для запуска команды на шаге 1

В вашем случае Hive определяет схему для ваших данных и предоставляет вам уровень запросов для общения Spark и внешних клиентов.

Иначе, spark.orc существует для чтения и записи кадров данных непосредственно в файловой системе

Другие вопросы по тегам