Можно ли использовать Spark с форматом файла ORC без Hive?
Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0.
Моя задача проста. Сохраните данные в формате файла ORC, затем используйте Spark для обработки данных. Чтобы добиться этого, я делаю это:
- Создать таблицу Hive через HiveQL
- Используйте Spark.SQL("выберите... из...") для загрузки данных в фрейм данных
- Обрабатывать данные
Мои вопросы: 1. Какова роль Улья за сценой? 2. Можно ли пропустить Hive?
1 ответ
Вы можете пропустить Hive и использовать SparkSQL для запуска команды на шаге 1
В вашем случае Hive определяет схему для ваших данных и предоставляет вам уровень запросов для общения Spark и внешних клиентов.
Иначе, spark.orc
существует для чтения и записи кадров данных непосредственно в файловой системе