Можно ли использовать Spark с форматом файла ORC без Hive?

Question

Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0.

Моя задача проста. Сохраните данные в формате файла ORC, затем используйте Spark для обработки данных. Чтобы добиться этого, я делаю это:

Мои вопросы: 1. Какова роль Улья за сценой? 2. Можно ли пропустить Hive?

apache-spark hive hortonworks-data-platform orc hive-metastore

Источник

user8014927 08 июн '18 в 13:32

1 ответ

Другие вопросы по тегам apache-spark hive hortonworks-data-platform orc hive-metastore

user2308683 24 июл '18 в 13:23 2018-07-24 13:23 · Answer 1 · 2018-07-24 13:23

Вы можете пропустить Hive и использовать SparkSQL для запуска команды на шаге 1

В вашем случае Hive определяет схему для ваших данных и предоставляет вам уровень запросов для общения Spark и внешних клиентов.

Иначе, spark.orc существует для чтения и записи кадров данных непосредственно в файловой системе