Описание тега hivecontext

Вопросы, связанные с классом HiveContext Apache Spark
0 ответов

Разница между командами SaveAsTable() и hivecontext,sql("вставить таблицу перезаписи") в версии spark sql 1.6

Мы можем переписать результат запроса в таблицу двумя способами. update_data.write.mode(Overwrite).saveAsTable("table_name") hc.sql("insert overwrite table table_name select * from src_table_name") Я не знаю разницы между двумя подходами, описанными…
29 май '18 в 14:02
0 ответов

Разделитель поля таблицы Hive не распознается искрой HiveContext

Я создал внешнюю таблицу улья, которая хранится в виде текстового файла, разделенного по дате события. Как мы должны указать конкретный формат CSV при чтении в спарк из таблицы Hive? Окружающая среда 1. 1.Spark 1.5.0 - cdh5.5.1 Using Scala version 2…
1 ответ

HiveException: не удалось создать искровой клиент

1) Я создал файл sql, в котором мы собираем данные из двух разных таблиц кустов и вставляем в одну таблицу кустов, 2) мы вызываем этот файл SQL, используя скрипт оболочки 3) Пример настройки искры: SET hive.execution.engine=spark; SET spark.master=y…
24 авг '16 в 14:36
2 ответа

Spark SQL sql ("<некоторый совокупный запрос>"). First(). GetDouble(0) дают мне противоречивые результаты

У меня есть запрос ниже, который должен найти среднее значение столбца и вернуть мне результат, который является одним числом. val avgVal = hiveContext.sql("select round(avg(amount), 4) from users.payment where dt between '2018-05-09' and '2018-05-0…
10 май '18 в 09:35
0 ответов

Будет ли запрос из Spark hivecontext заблокировать таблицу улья?

Я знаю, что если я отправлю запрос из Hive, будет получена общая блокировка, а затем таблица hive будет заблокирована запросом: https://cwiki.apache.org/confluence/display/Hive/Locking Поэтому мне просто интересно, если запрос выполняется Spark Hive…
09 мар '17 в 17:05
2 ответа

Таблица обновлений внешнего куста и восстановление MSCK

У меня есть внешняя таблица улья, хранящаяся как паркет, разделенная на столбец as_of_dt и данные вставляются с помощью искровой потоковой передачи. Теперь каждый день добавляется новый раздел. я делаю msck repair table так что улей метастафа получа…
06 авг '18 в 17:40
1 ответ

Spark2 не может найти таблицу или представление на удаленном кластере hdfs

Я использую HiveContext для удаленного запроса таблицы кустов на кластере hdfs через spark 1.6.0, и я могу сделать это успешно. Тем не менее, при этом через spark 2.3.0 выдает следующее: org.apache.spark.sql.AnalysisException: Table or view not foun…
1 ответ

Как использовать hiveContext в потоковой передаче от исполнителей?

Я пытаюсь использовать экземпляр HiveContext в потоковом приложении Spark (1.6), но происходит сбой со следующим исключением: java.lang.NullPointerException at org.apache.spark.sql.SQLConf.getConf (SQLConf.scala: 638) В частности, я хочу создать фре…
17 фев '18 в 14:20
6 ответов

"INSERT INTO ..." с SparkSQL HiveContext

Я пытаюсь запустить оператор вставки с моим HiveContext, например так: hiveContext.sql('insert into my_table (id, score) values (1, 10)') В документации SQL Server 1.5.2 Spark явно не указано, поддерживается ли она или нет, хотя она поддерживает "ди…
0 ответов

Создать таблицу улья в контексте улья Pyspark

У меня есть 3 таблицы в базе данных abc hive в формате Avro. Я хочу создать другую базу данных (def) и создать эти 3 таблицы в pyspark hivecontext через фреймы данных. Дополнительная информация: в базе данных abc 3 таблицы все столбцы будут иметь ст…
27 сен '18 в 11:36
0 ответов

HiveContext и SQLContext в локальном режиме

Я занимаюсь разработкой заданий Spark на моей локальной машине, а затем внедряю их в кластер для полного запуска. Я создал общую библиотеку, которую другие люди используют в своем коде. В этом коде я должен использовать HiveContext для выполнения Sp…
16 мар '17 в 13:17
0 ответов

ClassCastException: InMemoryCatalog не может быть приведен к HiveExternalCatalog в искре

Я создаю объект HiveContext в одной из моих программ после создания SQLContext. Первоначально я читаю данные из базы данных MySQL через JDBC, используя SQLContext, а после чтения я выгружаю их в Hive, используя HiveContext. Но это с ошибкой ниже. 20…
20 дек '17 в 09:24
1 ответ

Действие Oozie Spark (Содержит HiveContext) Предоставление java.lang.OutOfMemoryError: PermGen space

Я пытаюсь запустить автономное приложение Spark-Scala в Oozie. Обратите внимание, что я использую CDH5.13 Quickstart VM с 20 ГБ ОЗУ (содержит Cloudera Manager, HUE ... и я обновил Java с 7 до 8). Код практически ничего не делает, он просто создает H…
1 ответ

Как остановить или удалить HiveContext в Pyspark?

Я сталкиваюсь со следующей проблемой: def my_func(table, usr, psswrd): from pyspark import SparkContext, SQLContext, HiveContext, SparkConf sconf = SparkConf() sconf.setAppName('TEST') sconf.set("spark.master", "local[2]") sc = SparkContext(conf=sco…
11 янв '18 в 16:37
1 ответ

Искровой hivecontext работа с вопросами запросов

Я пытаюсь получить информацию от Jsons для создания таблиц в Hive. Это моя схема Json: root |-- info: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- stations: array (nullable = true) | | | |-- element: struct (containsNu…
13 дек '15 в 19:26
2 ответа

Как обновить таблицу Spark ORC Hive с помощью Scala

Я хотел бы обновить таблицу кустов в формате orc, я могу обновить из своего представления кустов ambari, но не могу запустить такой же оператор обновления из sacla (spark-shell) objHiveContext.sql ("select * from table_name") может видеть данные, но…
1 ответ

Использование функций Hive в Spark Job через hiveContext

Я использую Hive 1.2 и Spark 1.4.1. Следующий запрос прекрасно работает через Hive CLI: hive&gt; select row_number() over (partition by one.id order by two.id) as sk, two.id, two.name, one.name, current_date() from avant_source.one one inner join av…
1 ответ

Можем ли мы УДАЛИТЬ всю таблицу в последней версии улья?

Есть таблица "ученик", созданная в версии улья 0.14. Я хочу удалить эту таблицу. можно использовать команду DELETE для этого?
04 янв '16 в 05:03
2 ответа

Как передать hiveContext в качестве аргумента функции spark scala

Я создал hiveContext в main() функция в Scala и мне нужно пройти через параметры этого hiveContext для других функций это структура: object Project { def main(name: String): Int = { val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) ...…
01 июн '16 в 10:24
1 ответ

Как предотвратить утечку памяти при тестировании с HiveContext в PySpark

Я использую pyspark для некоторой обработки данных и использую HiveContext для оконной функции. Чтобы протестировать код, я использую TestHiveContext, в основном копируя реализацию из исходного кода pyspark: https://spark.apache.org/docs/preview/api…
18 мар '18 в 20:48