Описание тега hive-metastore

Hive Metastore относится к центральному репозиторию метаданных Apache Hive (системы хранилищ данных с открытым исходным кодом, построенной на основе hadoop), в котором хранятся метаданные для таблиц и разделов Hive в реляционной базе данных. Используйте этот тег для вопросов, связанных с центральным репозиторием Apache Hive.
0 ответов

Redshift Внешние таблицы через Hive metastore

У меня есть настройка БД красного смещения, и мы делаем периодическое архивирование данных в S3. Я хотел бы создать внешние таблицы красных смещений поверх этих архивных файлов. Документация AWS предполагает, что это можно сделать либо через Athena,…
16 янв '18 в 11:15
1 ответ

Как проверить, существует ли раздел в Hive?

У меня есть таблица Hive, которая разделена на столбцы dt, Мне нужно добавить раздел, если он не существует, например, dt='20181219', Сейчас я пользуюсь HiveMetaStoreClient#getPartition(dbName, tableName, 20181219), Если раздел не существует, то пой…
19 дек '18 в 13:33
1 ответ

Проблема с каталогом данных AWS Glue в качестве Metastore для Spark SQL на EMR

У меня есть кластер AWS EMR (v5.11.1) с Spark(v2.2.1) и я пытаюсь использовать каталог данных AWS Glue в качестве своего метасредства. В соответствии с рекомендациями, приведенными в официальной документации AWS (ссылка на ссылку ниже), я выполнил ш…
0 ответов

Любой способ получить ограничения таблицы Hive

Kerberized HDP-2.6.3.0. Таблица имеет "Id" в качестве первичного ключа и "DepartmentId" в качестве внешнего ключа: +---------------------------------------------------------+-------------------------------------------------------------------------+-…
24 ноя '17 в 14:13
1 ответ

Как интегрировать доступ HIVE в PySpark, полученный из pip и conda (не из дистрибутива Spark или пакета)

Я строю и программно использую свой PySpark окружающая среда с нуля через conda а также pip pyspark (как я демонстрирую здесь); а не использовать PySpark из загружаемого дистрибутива Spark. Как вы можете видеть в первом фрагменте кода URL-адреса выш…
30 янв '19 в 19:02
0 ответов

HIve metastore мертв, но файл pid существует

Я настроил быстрый запуск виртуальной машины Cloudera на виртуальной коробке с сетью в качестве адаптера моста. Все услуги в хорошем состоянии. Но когда я запускаю службу metastore (перезапуск hive-metastore службы sudo), она дает статус OK, но чере…
11 фев '19 в 18:22
1 ответ

Невозможно выполнить любой запрос к таблице

Пока я выполняю следующий запрос SELECT * FROM table_unfilter WHERE date='2010-08-01'; я получаю Сбой: ошибка в получении блокировок: ошибка связи с метастазами Когда я устанавливаю параллелизм улья в ложь, я получаю Не удалось использовать dbtxnman…
26 фев '19 в 12:38
1 ответ

hive.metastore.uri на presto worker требует перезапуска какой-либо службы?

Я не уверен, что на это уже ответили. Я настроил Presto с координатором, рабочим и метастазами в докер-контейнерах над экземплярами AWS EC2, распределенными по зонам доступности. Следующий конфиг используется у работников presto - hive.metastore.uri…
07 фев '19 в 09:53
1 ответ

Можно ли использовать Spark с форматом файла ORC без Hive?

Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0. Моя задача проста. Сохраните данные в формате файла ORC, затем используйте Spark для обработки данных. Чтобы добиться этого, я делаю это: Создать таблицу Hive через HiveQL Использу…
0 ответов

Несколько вопросов, связанных с кодом Atlas HiveMetastoreBridge

Я просматривал код HiveMetastoreBridge в Apache Atlas и столкнулся с несколькими сомнениями. Простите, если эти вопросы очень наивны. HiveMetastoreBridge код Почему мы очищаем отношения в методе findEntity? Что добавляет добавленный объект делает им…
13 сен '18 в 06:17
1 ответ

Hive 2.3.3 MetaException(сообщение: информация о версии не найдена в metastore.)

У меня есть Hive 2.3.3 и Hadoop 3.1.0. Я могу запустить Hive с командой hive на терминале, но когда я пытаюсь создать таблицу, я получаю следующую ошибку: user$ hive readlink: illegal option -- f usage: readlink [-n] [file ...] SLF4J: Class path con…
08 май '18 в 09:38
1 ответ

Как передать несколько столбцов в методе разбивки в Spark

Я новичок в Spark. Я хочу записать данные фрейма в таблицу кустов. Таблица кустов разделена на столбец с несколькими столбцами. Через клиент Hivemetastore я получаю столбец раздела и передаю его как переменную в предложении partitionby в методе запи…
1 ответ

Настройка автономного сервиса Hive Metastore для Presto и AWS S3

Я работаю в среде, где у меня есть сервис S3, используемый как озеро данных, но не AWS Athena. Я пытаюсь настроить Presto, чтобы иметь возможность запрашивать данные в S3, и я знаю, что мне нужно определить структуру данных в виде таблиц Hive через …
22 фев '18 в 16:47
1 ответ

"Hive Service JVM" в Улье?

Я имею в виду Hadoop: полное руководство по пониманию Hive. Я узнал, что существует множество "Служб улья", которые он предоставляет, например: cli, hiveserver2, beeline, metastore и т.п. Вот фрагмент списка Hive Service (из той же книги): Способы н…
14 апр '18 в 20:05
1 ответ

Apache spark 2.2.0 Не удается подключиться к metastore после обновления куста metastore

Ошибка ниже при запуске spark-shell Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 18/…
30 янв '18 в 13:40
2 ответа

Как получить все столбцы таблиц базы данных

Я хочу получить информацию обо всех базах данных и связанных с ними таблицах и столбцах. Очевидно, я могу сделать это из metastore. Но у меня нет доступа к нему. Так есть ли другой способ, вместо того, чтобы запрашивать каждую базу данных один за др…
04 дек '17 в 06:44
2 ответа

Программа Spark внутренне вызывает HDFS: /apps/hive/warehouse

Сценарий / Детали кода Я создаю объект сеанса искры для хранения данных в таблице кустов, как: _sparkSession = SparkSession.builder(). config(_sparkConf). config("spark.sql.warehouse.dir", "/user/platform"). enableHiveSupport(). getOrCreate(); После…
27 июн '18 в 14:51
2 ответа

Сбой действия Oozie Spark для среды Kerberos

Я управляю искровой работой через зажигательную игру. Работа с искрой использует hivecontext для выполнения некоторых требований. Кластер настроен с Kerberos. Когда я отправляю задание с помощью консоли формы spark-submit, оно успешно выполняется. Н…
18 мар '18 в 08:03
2 ответа

Как подключить AWS Athena к существующему Hive Metastore

Мне нужно интегрировать сервис AWS Athena с существующим Hive Metastore (не с AWS Glue). Подскажите, пожалуйста, как я могу подключить Афину к Hive Metastore.
0 ответов

Удаленная база данных Metastore не разделяет базу данных global_temp между различными приложениями Spark

Я запускаю первое искровое приложение, настроенное для подключения к удаленной базе данных Hive Metastore через: .set("hive.metastore.uris", "thrift://localhost:9083") .set("spark.sql.hive.thriftServer.singleSession", "true") Вот исходный код: val d…
04 фев '19 в 16:32