Описание тега impala
Apache Impala is the open source, native analytic database
for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon.
1
ответ
Как преобразовать JSON-файл в Excel/ SQL-запрос
У меня есть процесс ETL, в котором дополнительная / дельта-загрузка генерируется командой поставщика исходной системы в файле json и передается команде разработчиков для загрузки в таблицу. И исходная система согласилась предоставить команде тестиро…
25 сен '17 в 04:52
1
ответ
Импала - заменить все данные в разделе таблицы
У меня есть программа, которая генерирует все данные, касающиеся раздела таблицы Impala. Эта программа записывает данные в текстовый файл HDFS. Как (физически) удалить все данные, ранее принадлежавшие разделу, и заменить их данными в новом текстовом…
20 апр '17 в 15:53
1
ответ
Вставить в таблицу Impala против записи в HDFS
У меня около 10 тысяч записей (хранится как ArrayList в Java). Я хочу вставить эти записи в Impala. Должен ли я использовать insert into table partition values напрямую вставить импале. (Я не уверен, сколько записей можно вставить в один оператор SQ…
30 июл '17 в 08:14
1
ответ
Управление порядком соединения при объединении левого соединения и внутреннего соединения в Impala SQL
С такими данными create table table_a as select 1 as id1; insert into table_a values (2),(3); create table table_b as select 1 as id1, 'a' as id2; insert into table_b values (1,'b'); create table table_c as select 'a' as id2; У меня есть следующий в…
12 дек '17 в 11:57
0
ответов
Не удалось запустить запросы кустов параллельно с помощью редактора запросов оттенка
У меня есть кластер CDH-5 с установленными ульем, импалой и оттенком. Когда 2 пользователя пытаются параллельно использовать "Редактор запросов" Hue с Impala или Hive, мы никогда не получаем результат обратно. Когда один пользователь запускает запро…
21 мар '16 в 12:50
0
ответов
Не удается установить соединение Hive с Kerberized Hadoop Cluster на платформе weblogic в Windows
У меня проблема с сервером weblogic для Windows, когда я пытаюсь подключиться к Impala, работающему на керберизованном кластере Hadoop. Я попытался установить соединение с небольшим блоком кода в автономном коде Java на моей локальной машине и успеш…
27 июл '18 в 12:04
2
ответа
О том, как запустить Impala-Shell в сценарии оболочки
У меня проблема при попытке выполнить этот код Bash: function createImpalaPartition() { period_id=$1; database=$2 node=$3 actual_full=$(date -d@"$period_id" +%Y/%m/%d/%H/%M/) template="use c2d;create EXTERNAL TABLE exptopology_$period_id (child_id b…
06 апр '15 в 13:55
3
ответа
Как сохранить результаты запроса импалы
Я загрузил большой набор данных из S3 в hdfs, а затем вставил данные в таблицу в Impala. Затем я запустил запрос к этим данным и надеюсь вернуть эти результаты в S3. Я использую Amazon EMR, с импала 1.2.4. Если невозможно получить результаты запроса…
20 июл '15 в 04:01
0
ответов
Импала - как преобразовать столбец с разделителями в несколько строк
Значения баллов столбцов разделяются запятой. Каждый идентификатор пользователя имеет, по крайней мере, оценку, и не существует верхнего предела для количества оценок каждого идентификатора пользователя. +--------+---------+ | userid | scores | +---…
11 апр '18 в 10:56
0
ответов
Импала - Как получить все элементы структуры массива для каждого соответствующего первичного ключа
Например, у нас есть таблица, как показано ниже ID Name 1 ["a", "b", "c", "d"] 2 ["a", "e", "f"] 3 ["b", "t", "h"] 4 [] Как получить вывод, как: ID Name 1 a,b,c,d 2 a,e,f 3 b,t,h 4 null Из документации Impala мы можем использовать код для извлечения…
08 ноя '18 в 23:45
2
ответа
Ошибка подключения Impala
Я пытаюсь запустить приведенную ниже команду impala в своем кластере cloudera impala-shell -i connect 10.223.121.11:21000 -d prod_db -f /home/cloudera/views/a.hql но я получаю ошибку как Error, could not parse arguments "10.223.121.11:21000" Может л…
24 ноя '16 в 14:25
1
ответ
Импала минимальный DDL
Я знаю, что мы можем создать таблицу Impala, как CREATE EXTERNAL TABLE SCHEMA.TableName LIKE PARQUET '/rootDir/SecondLevelDir/RawFileThatKnowsDataTypes.parquet' Но я не уверен, что Impala может создать таблицу из файла (желательно текстового), котор…
11 дек '15 в 00:24
1
ответ
(Импала) Выбор наиболее распространенного значения в результатах поиска в поле "Подзапросы не поддерживаются в списке выбора"
Я пытаюсь сделать агрегацию, которая принимает наиболее распространенное значение группы, например: with t1 as ( select id , colA , colB from some_Table ) select id , count(*) as total , max(colA) as maxColA , most_common(colB) -- this is what I'm t…
26 сен '18 в 15:36
1
ответ
Извлечь строку impala sql1
У меня есть таблица, как это: testtime4: 6: 711: 2: 8 Как я могу извлечь минуты и секунды из строки? я хочу что-то вроде этого: время теста минута секунда4: 6: 7 6 711: 2: 8 2 8 Спасибо
07 ноя '17 в 17:22
1
ответ
Как определить, что разделитель столбца существующей таблицы в MySQL
Я работаю с существующей таблицей в MySQL, но мне нужно знать, как она была настроена. Мне нужно найти FIELDS TERMINATED BY настройки, чтобы я мог настроить свою базу данных Impala соответственно.
12 фев '16 в 17:13
1
ответ
Разделы импала с <или> условиями
У меня есть 2 ТБ записей о сотовых телефонах, около 33 миллиардов просмотров 1,8 миллиона пользователей. Я создал раздел по идентификатору пользователя. Импала создает много подкаталогов под названием userid=XXXXX, Это похоже на чрезмерное разделени…
07 апр '16 в 16:31
0
ответов
Соединение отклонило исключение при запуске impalad
Когда я успешно запускаю impalad после сборки impala2.0.0, я сталкиваюсь с такой ошибкой [root@localhost impala-2.0.0-cdh5.2.0]# ./bin/start-impalad.sh -use_statestore=false ls: cannot access /root/projects/impala-2.0.0-cdh5.2.0/testdata/target/depe…
01 дек '14 в 17:23
2
ответа
Найти недостающие записи с группировкой
Я пытаюсь реализовать SQL-запрос для определения пропущенных записей из двух таблиц HIVE на основе сценария группировки. Данные как ниже Таблица 1 - Календарь month_last_day 20190131 20190229 20190331 20190430 Таблица 2 - Предметы itemid date 101 20…
26 янв '19 в 15:03
0
ответов
Что означает параметр TotalStorageWaitTime в профиле импалы?
Тот же оператор запроса, производительность нестабильна в импале. Иногда на запрос уходит около 2 секунд, а иногда - около 10 секунд. Когда выполнение выполняется медленно, параметры TotalStorageWaitTime и scannerThreadsTotalWallClockTime относитель…
08 ноя '18 в 15:54
1
ответ
Проблема производительности с таблицей Impala с объединенными файлами паркета
Здесь у меня есть утилита python для создания нескольких файлов паркета с использованием библиотеки Pyarrow для одного набора данных, так как размер набора данных огромен за один день. Здесь файл паркета содержит 10K групп строк паркета в каждом фай…
28 янв '19 в 19:30