Как получить доступ к таблице ACE HIVE в Spark sql?

Мой вопрос о том, как получить доступ к таблице ACE HIVE в Spark sql?

1 ответ

Мы работали над источником данных и открыли его исходный код, который позволит пользователям работать с транзакционными таблицами Hive ACID с помощью Spark.

Github: https://github.com/qubole/spark-acid

Он доступен в виде пакета Spark, а инструкции по его использованию находятся на странице Github. В настоящее время источник данных поддерживает только чтение из таблиц ACID Hive, и мы работаем над добавлением возможности записи в эти таблицы через Spark.

Отзывы и предложения приветствуются!

Я столкнулся с той же проблемой (Spark для таблиц кислот Hive), и я могу справиться с вызовом JDBC из Spark. Может быть, я могу использовать этот вызов JDBC от spark, пока мы не получим поддержку ACID от Spark.

https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID

@aniket Spark не поддерживает непосредственное чтение таблиц Hive Acid. ( https://issues.apache.org/jira/browse/SPARK-15348/SPARK-16996) Макет данных для транзакционных таблиц требует специальной логики, чтобы решить, какие каталоги читать и как правильно их комбинировать. Например, некоторые файлы данных могут представлять обновления ранее записанных строк. Кроме того, если вы читаете, когда что-то записывает в эту таблицу, ваше чтение может завершиться неудачно (без специальной логики), потому что оно попытается прочитать неполные файлы ORC. Сжатие может (опять же без специальной логики) сделать так, чтобы ваши данные дублировались. Это может быть сделано (WIP) через LLAP - отслеживается в https://issues.apache.org/jira/browse/HIVE-12991

Spark может читать кислотную таблицу напрямую, по крайней мере, начиная с Spark 2.3.2. Но я также могу подтвердить, что он не может читать кислотную таблицу в Spark 2.2.0.

Другие вопросы по тегам