Описание тега impala

Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon.
1 ответ

Как преобразовать JSON-файл в Excel/ SQL-запрос

У меня есть процесс ETL, в котором дополнительная / дельта-загрузка генерируется командой поставщика исходной системы в файле json и передается команде разработчиков для загрузки в таблицу. И исходная система согласилась предоставить команде тестиро…
25 сен '17 в 04:52
1 ответ

Импала - заменить все данные в разделе таблицы

У меня есть программа, которая генерирует все данные, касающиеся раздела таблицы Impala. Эта программа записывает данные в текстовый файл HDFS. Как (физически) удалить все данные, ранее принадлежавшие разделу, и заменить их данными в новом текстовом…
20 апр '17 в 15:53
1 ответ

Вставить в таблицу Impala против записи в HDFS

У меня около 10 тысяч записей (хранится как ArrayList в Java). Я хочу вставить эти записи в Impala. Должен ли я использовать insert into table partition values напрямую вставить импале. (Я не уверен, сколько записей можно вставить в один оператор SQ…
30 июл '17 в 08:14
1 ответ

Управление порядком соединения при объединении левого соединения и внутреннего соединения в Impala SQL

С такими данными create table table_a as select 1 as id1; insert into table_a values (2),(3); create table table_b as select 1 as id1, 'a' as id2; insert into table_b values (1,'b'); create table table_c as select 'a' as id2; У меня есть следующий в…
12 дек '17 в 11:57
0 ответов

Не удалось запустить запросы кустов параллельно с помощью редактора запросов оттенка

У меня есть кластер CDH-5 с установленными ульем, импалой и оттенком. Когда 2 пользователя пытаются параллельно использовать "Редактор запросов" Hue с Impala или Hive, мы никогда не получаем результат обратно. Когда один пользователь запускает запро…
21 мар '16 в 12:50
0 ответов

Не удается установить соединение Hive с Kerberized Hadoop Cluster на платформе weblogic в Windows

У меня проблема с сервером weblogic для Windows, когда я пытаюсь подключиться к Impala, работающему на керберизованном кластере Hadoop. Я попытался установить соединение с небольшим блоком кода в автономном коде Java на моей локальной машине и успеш…
27 июл '18 в 12:04
2 ответа

О том, как запустить Impala-Shell в сценарии оболочки

У меня проблема при попытке выполнить этот код Bash: function createImpalaPartition() { period_id=$1; database=$2 node=$3 actual_full=$(date -d@"$period_id" +%Y/%m/%d/%H/%M/) template="use c2d;create EXTERNAL TABLE exptopology_$period_id (child_id b…
06 апр '15 в 13:55
3 ответа

Как сохранить результаты запроса импалы

Я загрузил большой набор данных из S3 в hdfs, а затем вставил данные в таблицу в Impala. Затем я запустил запрос к этим данным и надеюсь вернуть эти результаты в S3. Я использую Amazon EMR, с импала 1.2.4. Если невозможно получить результаты запроса…
20 июл '15 в 04:01
0 ответов

Импала - как преобразовать столбец с разделителями в несколько строк

Значения баллов столбцов разделяются запятой. Каждый идентификатор пользователя имеет, по крайней мере, оценку, и не существует верхнего предела для количества оценок каждого идентификатора пользователя. +--------+---------+ | userid | scores | +---…
11 апр '18 в 10:56
0 ответов

Импала - Как получить все элементы структуры массива для каждого соответствующего первичного ключа

Например, у нас есть таблица, как показано ниже ID Name 1 ["a", "b", "c", "d"] 2 ["a", "e", "f"] 3 ["b", "t", "h"] 4 [] Как получить вывод, как: ID Name 1 a,b,c,d 2 a,e,f 3 b,t,h 4 null Из документации Impala мы можем использовать код для извлечения…
08 ноя '18 в 23:45
2 ответа

Ошибка подключения Impala

Я пытаюсь запустить приведенную ниже команду impala в своем кластере cloudera impala-shell -i connect 10.223.121.11:21000 -d prod_db -f /home/cloudera/views/a.hql но я получаю ошибку как Error, could not parse arguments "10.223.121.11:21000" Может л…
24 ноя '16 в 14:25
1 ответ

Импала минимальный DDL

Я знаю, что мы можем создать таблицу Impala, как CREATE EXTERNAL TABLE SCHEMA.TableName LIKE PARQUET '/rootDir/SecondLevelDir/RawFileThatKnowsDataTypes.parquet' Но я не уверен, что Impala может создать таблицу из файла (желательно текстового), котор…
11 дек '15 в 00:24
1 ответ

(Импала) Выбор наиболее распространенного значения в результатах поиска в поле "Подзапросы не поддерживаются в списке выбора"

Я пытаюсь сделать агрегацию, которая принимает наиболее распространенное значение группы, например: with t1 as ( select id , colA , colB from some_Table ) select id , count(*) as total , max(colA) as maxColA , most_common(colB) -- this is what I'm t…
26 сен '18 в 15:36
1 ответ

Извлечь строку impala sql1

У меня есть таблица, как это: testtime4: 6: 711: 2: 8 Как я могу извлечь минуты и секунды из строки? я хочу что-то вроде этого: время теста минута секунда4: 6: 7 6 711: 2: 8 2 8 Спасибо
07 ноя '17 в 17:22
1 ответ

Как определить, что разделитель столбца существующей таблицы в MySQL

Я работаю с существующей таблицей в MySQL, но мне нужно знать, как она была настроена. Мне нужно найти FIELDS TERMINATED BY настройки, чтобы я мог настроить свою базу данных Impala соответственно.
12 фев '16 в 17:13
1 ответ

Разделы импала с <или> условиями

У меня есть 2 ТБ записей о сотовых телефонах, около 33 миллиардов просмотров 1,8 миллиона пользователей. Я создал раздел по идентификатору пользователя. Импала создает много подкаталогов под названием userid=XXXXX, Это похоже на чрезмерное разделени…
07 апр '16 в 16:31
0 ответов

Соединение отклонило исключение при запуске impalad

Когда я успешно запускаю impalad после сборки impala2.0.0, я сталкиваюсь с такой ошибкой [root@localhost impala-2.0.0-cdh5.2.0]# ./bin/start-impalad.sh -use_statestore=false ls: cannot access /root/projects/impala-2.0.0-cdh5.2.0/testdata/target/depe…
01 дек '14 в 17:23
2 ответа

Найти недостающие записи с группировкой

Я пытаюсь реализовать SQL-запрос для определения пропущенных записей из двух таблиц HIVE на основе сценария группировки. Данные как ниже Таблица 1 - Календарь month_last_day 20190131 20190229 20190331 20190430 Таблица 2 - Предметы itemid date 101 20…
26 янв '19 в 15:03
0 ответов

Что означает параметр TotalStorageWaitTime в профиле импалы?

Тот же оператор запроса, производительность нестабильна в импале. Иногда на запрос уходит около 2 секунд, а иногда - около 10 секунд. Когда выполнение выполняется медленно, параметры TotalStorageWaitTime и scannerThreadsTotalWallClockTime относитель…
08 ноя '18 в 15:54
1 ответ

Проблема производительности с таблицей Impala с объединенными файлами паркета

Здесь у меня есть утилита python для создания нескольких файлов паркета с использованием библиотеки Pyarrow для одного набора данных, так как размер набора данных огромен за один день. Здесь файл паркета содержит 10K групп строк паркета в каждом фай…
28 янв '19 в 19:30