Hive - это база данных, построенная на основе Hadoop, которая упрощает обобщение данных, специальные запросы и анализ больших наборов данных, хранящихся в распределенной файловой системе, совместимой с Hadoop. Hive предоставляет механизм для проецирования структуры на эти данные и запроса данных с использованием SQL-подобного языка, называемого HiveQL.
1 ответ

Улей: Формат строки, чтобы выглядеть как номер телефона

У меня есть номера телефонов, сохраненные в виде текста в столбце моей таблицы. Как я могу отформатировать его, чтобы он выглядел как какой-то формат номера телефона с помощью улья. Phone number Formatted 2076234568 207-623-4568 2079425555 207-942-5…
21 сен '17 в 06:15
0 ответов

Как сделать сложный запрос по большим данным?

Каждый. У меня есть некоторые данные о 6G в hdfs, которые были экспортированы из mysql. И у меня есть запись mapreduces для предварительной обработки данных, чтобы заполнить какое-то ключевое поле, чтобы данные можно было легко запрашивать. Поскольк…
01 дек '14 в 14:51
2 ответа

Рейтинг и порядок SQL

Я работаю с набором данных, в котором я ищу, чтобы получить #1 продавца для каждого class_rk, проданного с SKU драйвера, за которым следует #2 продавца в каждом class_rk и т. Д. Class_rk (который связан с sold_sku) имеет уже был идентифицирован в пр…
15 апр '15 в 14:19
1 ответ

Функция Hive INSTR некорректно работает со строкой с символами UTF8

Функция Hive INSTR некорректно работает со строками с символами UTF8. Когда символ ударения является частью строки, INSTR возвращает неправильное расположение символов для последующих символов. Кажется, он считает байты вместо символов. С символом у…
09 ноя '16 в 00:30
1 ответ

Hive-Java JDBC проблемы с подключением

Я делаю программу на Java, и мне нужно соединиться с базой данных в улье. Я использую MySQL в качестве метастаза. Hadoop, mysql и hive работают без проблем. Я создал свою базу данных в хранилище и таблицу в ней, а также вставил данные для консоли hi…
13 июн '18 в 15:13
1 ответ

Улей создает отдельную копию данных

Когда мы создадим таблицу в кусте, используя CSV-файл из hdfs, тогда куст будет создавать отдельную копию этих данных? Это приведет к ненужным потерям памяти
28 май '16 в 11:06
1 ответ

Обработка записей Hive в программе Spark Driver

В моем случае у меня есть таблица улья, которая содержит 100 тысяч записей. Каждая запись представляет файл необработанных данных, который должен быть обработан. Обработка каждого файла необработанных данных генерирует CSV-файл, размер которого буде…
28 авг '17 в 09:42
0 ответов

Одо не передает содержимое таблицы Hive в CSV-файл?

Я использую Python 3.6 и у меня есть table A в какой-то базе данных. Я запускаю следующую команду: odo('hive://pp1.company.abcde:10000/db::A', 'data.csv') Однако я получаю следующую ошибку: KeyError: <class 'sqlalchemy.engine.base.Engine'> Мне…
22 мар '18 в 12:53
0 ответов

Выбор данных из таблицы улья

У меня есть данные временных рядов в Hive table(21.1G) в котором хранится столько частей файлов паркета в формате hdf. Таблица разделена на sid, год, дату. Мне нужно сделать запрос на выборку для этой таблицы и сделать некоторые вычисления. задание …
08 сен '17 в 18:39
1 ответ

Изменение разделов таблицы Hive путем уменьшения количества разделов

Создать заявление: CREATE EXTERNAL TABLE tab1(usr string) PARTITIONED BY (year string, month string, day string, hour string, min string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' LOCATION '/tmp/hive1'; Данные: select * …
09 фев '17 в 14:41
0 ответов

Использование функции маскировки Apache Hive и фильтрации строк / столбцов

Недавно я узнал, что в Hive была добавлена ​​функция маскирования и фильтрации строк / столбцов. https://issues.apache.org/jira/browse/HIVE-13125 Но до сих пор нет документации по этому поводу. В ходе моих исследований я обнаружил, что мы можем испо…
16 фев '17 в 13:50
0 ответов

Улей соединиться с подобным оператором

У меня есть две таблицы, которые используют сжатие ORC и использую TEZ в качестве механизма выполнения. Table_a содержит более 900 тыс. Записей, а table_b содержит 17 млн. Записей. Этот запрос занял больше времени. Я ждал 2 дня, но выполнение запрос…
12 ноя '15 в 05:59
1 ответ

Hive from_unixtime() генерирует неподходящую дату

Я использую запрос для создания временной метки из фиктивной таблицы с именем dual. Но дата, возвращаемая из таблицы, кажется неверной. select String(max(max_lid_date)) as prev_reqline_max_lid_date,from_unixtime(unix_timestamp(),'YYYY-MM-DD hh:mm:ss…
15 дек '15 в 09:53
0 ответов

Получите максимальное расстояние, пройденное клиентом в Улье

У меня есть таблица ульев с данными о широте и долготе клиентов. CustomerID | Latitude | Longitude | Date 1 | 55.55 | 76.77 | 2017-10-30 2 | 56.66 | 78.76 | 2017-10-29 3 | 51.77 | 80.97 | 2017-09-23 Я хочу найти разницу между двумя самыми дальними т…
03 ноя '17 в 11:23
1 ответ

Улей, упорядочивание строк с использованием переменной задержки

У меня есть следующая таблица улья: product | price A | 100 B | 102 C | 220 D | 240 E | 242 F | 410 Для каждой строки я хотел бы разделить более низкую цену на текущую цену, если результат больше 0,9, я хотел бы увеличить номер строки. Если результа…
19 май '16 в 08:37
1 ответ

В чем разница между Statement.setMaxRows и Statement.setFetchsize в Hive

Я запускаю запросы против Hive. Те же запросы должны работать с другими драйверами JDBC, то есть с другими реляционными базами данных. Я не могу использовать метод Statement.setFetchSize, потому что он не поддерживается в Hive JDBC 0.13.0. Я пытаюсь…
04 сен '15 в 13:38
0 ответов

Таблица кустов разделов на основе года / месяца из столбца меток времени

У меня есть таблица улья, которую я импортирую из Postgres, используя sqoop. Эта таблица состоит из столбца updated_at, который имеет значения меток времени. Я пытаюсь разделить таблицу по году и месяцу из этого значения метки времени. Есть ли спосо…
08 июл '16 в 14:48
1 ответ

Hive Serde Regex не распознает шаблон строки

Вот две строки из моих файлов журнала, которые я пытаюсь сопоставить. Я пытаюсь разделить каждую строку на четыре столбца (дата, имя хоста, команда, статус). Строка представляет собой табуляцию между датой, именем хоста, командой и состоянием в стро…
25 апр '14 в 17:07
1 ответ

Таблицы кустов в нескольких узлах - обработка

У меня есть концептуальные сомнения в улье. Я знаю, что Hive - это инструмент для хранения данных, работающий поверх Hadoop. Мы знаем, что Hadoop имеет распределенную файловую систему -HDFS. Предположим, у меня есть один хозяин и три раба. Теперь я …
18 мар '16 в 07:05
2 ответа

hive-site.xml не найден в classpath

Во время работы giraph hiverunner я получаю следующую ошибку, касающуюся classpath, связанной с hive-site.xml, я уже установил hive-env.sh и bash.bashrc, но ошибка все еще приходит... любая помощь, как установить classpath и устранить эту ошибку..??…
16 янв '13 в 07:37