Описание тега hive
Hive - это база данных, построенная на основе Hadoop, которая упрощает обобщение данных, специальные запросы и анализ больших наборов данных, хранящихся в распределенной файловой системе, совместимой с Hadoop. Hive предоставляет механизм для проецирования структуры на эти данные и запроса данных с использованием SQL-подобного языка, называемого HiveQL.
1
ответ
Улей: Формат строки, чтобы выглядеть как номер телефона
У меня есть номера телефонов, сохраненные в виде текста в столбце моей таблицы. Как я могу отформатировать его, чтобы он выглядел как какой-то формат номера телефона с помощью улья. Phone number Formatted 2076234568 207-623-4568 2079425555 207-942-5…
21 сен '17 в 06:15
0
ответов
Как сделать сложный запрос по большим данным?
Каждый. У меня есть некоторые данные о 6G в hdfs, которые были экспортированы из mysql. И у меня есть запись mapreduces для предварительной обработки данных, чтобы заполнить какое-то ключевое поле, чтобы данные можно было легко запрашивать. Поскольк…
01 дек '14 в 14:51
2
ответа
Рейтинг и порядок SQL
Я работаю с набором данных, в котором я ищу, чтобы получить #1 продавца для каждого class_rk, проданного с SKU драйвера, за которым следует #2 продавца в каждом class_rk и т. Д. Class_rk (который связан с sold_sku) имеет уже был идентифицирован в пр…
15 апр '15 в 14:19
1
ответ
Функция Hive INSTR некорректно работает со строкой с символами UTF8
Функция Hive INSTR некорректно работает со строками с символами UTF8. Когда символ ударения является частью строки, INSTR возвращает неправильное расположение символов для последующих символов. Кажется, он считает байты вместо символов. С символом у…
09 ноя '16 в 00:30
1
ответ
Hive-Java JDBC проблемы с подключением
Я делаю программу на Java, и мне нужно соединиться с базой данных в улье. Я использую MySQL в качестве метастаза. Hadoop, mysql и hive работают без проблем. Я создал свою базу данных в хранилище и таблицу в ней, а также вставил данные для консоли hi…
13 июн '18 в 15:13
1
ответ
Улей создает отдельную копию данных
Когда мы создадим таблицу в кусте, используя CSV-файл из hdfs, тогда куст будет создавать отдельную копию этих данных? Это приведет к ненужным потерям памяти
28 май '16 в 11:06
1
ответ
Обработка записей Hive в программе Spark Driver
В моем случае у меня есть таблица улья, которая содержит 100 тысяч записей. Каждая запись представляет файл необработанных данных, который должен быть обработан. Обработка каждого файла необработанных данных генерирует CSV-файл, размер которого буде…
28 авг '17 в 09:42
0
ответов
Одо не передает содержимое таблицы Hive в CSV-файл?
Я использую Python 3.6 и у меня есть table A в какой-то базе данных. Я запускаю следующую команду: odo('hive://pp1.company.abcde:10000/db::A', 'data.csv') Однако я получаю следующую ошибку: KeyError: <class 'sqlalchemy.engine.base.Engine'> Мне…
22 мар '18 в 12:53
0
ответов
Выбор данных из таблицы улья
У меня есть данные временных рядов в Hive table(21.1G) в котором хранится столько частей файлов паркета в формате hdf. Таблица разделена на sid, год, дату. Мне нужно сделать запрос на выборку для этой таблицы и сделать некоторые вычисления. задание …
08 сен '17 в 18:39
1
ответ
Изменение разделов таблицы Hive путем уменьшения количества разделов
Создать заявление: CREATE EXTERNAL TABLE tab1(usr string) PARTITIONED BY (year string, month string, day string, hour string, min string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' LOCATION '/tmp/hive1'; Данные: select * …
09 фев '17 в 14:41
0
ответов
Использование функции маскировки Apache Hive и фильтрации строк / столбцов
Недавно я узнал, что в Hive была добавлена функция маскирования и фильтрации строк / столбцов. https://issues.apache.org/jira/browse/HIVE-13125 Но до сих пор нет документации по этому поводу. В ходе моих исследований я обнаружил, что мы можем испо…
16 фев '17 в 13:50
0
ответов
Улей соединиться с подобным оператором
У меня есть две таблицы, которые используют сжатие ORC и использую TEZ в качестве механизма выполнения. Table_a содержит более 900 тыс. Записей, а table_b содержит 17 млн. Записей. Этот запрос занял больше времени. Я ждал 2 дня, но выполнение запрос…
12 ноя '15 в 05:59
1
ответ
Hive from_unixtime() генерирует неподходящую дату
Я использую запрос для создания временной метки из фиктивной таблицы с именем dual. Но дата, возвращаемая из таблицы, кажется неверной. select String(max(max_lid_date)) as prev_reqline_max_lid_date,from_unixtime(unix_timestamp(),'YYYY-MM-DD hh:mm:ss…
15 дек '15 в 09:53
0
ответов
Получите максимальное расстояние, пройденное клиентом в Улье
У меня есть таблица ульев с данными о широте и долготе клиентов. CustomerID | Latitude | Longitude | Date 1 | 55.55 | 76.77 | 2017-10-30 2 | 56.66 | 78.76 | 2017-10-29 3 | 51.77 | 80.97 | 2017-09-23 Я хочу найти разницу между двумя самыми дальними т…
03 ноя '17 в 11:23
1
ответ
Улей, упорядочивание строк с использованием переменной задержки
У меня есть следующая таблица улья: product | price A | 100 B | 102 C | 220 D | 240 E | 242 F | 410 Для каждой строки я хотел бы разделить более низкую цену на текущую цену, если результат больше 0,9, я хотел бы увеличить номер строки. Если результа…
19 май '16 в 08:37
1
ответ
В чем разница между Statement.setMaxRows и Statement.setFetchsize в Hive
Я запускаю запросы против Hive. Те же запросы должны работать с другими драйверами JDBC, то есть с другими реляционными базами данных. Я не могу использовать метод Statement.setFetchSize, потому что он не поддерживается в Hive JDBC 0.13.0. Я пытаюсь…
04 сен '15 в 13:38
0
ответов
Таблица кустов разделов на основе года / месяца из столбца меток времени
У меня есть таблица улья, которую я импортирую из Postgres, используя sqoop. Эта таблица состоит из столбца updated_at, который имеет значения меток времени. Я пытаюсь разделить таблицу по году и месяцу из этого значения метки времени. Есть ли спосо…
08 июл '16 в 14:48
1
ответ
Hive Serde Regex не распознает шаблон строки
Вот две строки из моих файлов журнала, которые я пытаюсь сопоставить. Я пытаюсь разделить каждую строку на четыре столбца (дата, имя хоста, команда, статус). Строка представляет собой табуляцию между датой, именем хоста, командой и состоянием в стро…
25 апр '14 в 17:07
1
ответ
Таблицы кустов в нескольких узлах - обработка
У меня есть концептуальные сомнения в улье. Я знаю, что Hive - это инструмент для хранения данных, работающий поверх Hadoop. Мы знаем, что Hadoop имеет распределенную файловую систему -HDFS. Предположим, у меня есть один хозяин и три раба. Теперь я …
18 мар '16 в 07:05
2
ответа
hive-site.xml не найден в classpath
Во время работы giraph hiverunner я получаю следующую ошибку, касающуюся classpath, связанной с hive-site.xml, я уже установил hive-env.sh и bash.bashrc, но ошибка все еще приходит... любая помощь, как установить classpath и устранить эту ошибку..??…
16 янв '13 в 07:37