Описание тега qubole

Qubole Data Service (QDS) - облачный сервис больших данных, работающий в эластичном кластере на основе Hadoop.
2 ответа

Исправление java.lang.NoSuchMethodError: com.amazonaws.util.StringUtils.trim

Рассмотрим следующую ошибку: 2018-07-12 22:46:36,087 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.NoSuchMethodError: com.amazonaws.util.StringUtils.trim(Ljava/lang/String;)Ljava/lang/String; at com.amazonaws.auth.…
12 июл '18 в 23:04
0 ответов

Выбрать таблицу из базы данных в R

Я использую dbplyr для выбора таблицы из удаленной базы данных с помощью Rstudio. Я связался со Spark на сервере, используя livy. Он показывает мне базы данных, которые у меня есть, но когда я пытаюсь получить доступ к одной из таблиц в одной из схе…
17 июл '18 в 16:12
1 ответ

Задать расположение раздела в метаборе Qubole с помощью Spark

Как установить расположение раздела для моей таблицы Hive в метаборе Qubole? Я знаю, что это MySQL DB, но как получить к нему доступ и передать SQL-скрипт с исправлением с помощью Spark? UPD: проблема в том, что ALTER TABLE table_name [PARTITION (pa…
11 апр '18 в 12:20
1 ответ

Отладка неудачных перемешиваний в Hadoop Map уменьшает

Я вижу, как увеличивается размер входного файла. Неудачные тасования увеличиваются, а время выполнения задания увеличивается нелинейно. например. 75GB took 1h 86GB took 5h Я также вижу увеличение среднего времени перемешивания в 10 раз например. 75G…
21 сен '18 в 18:03
1 ответ

Как выбрать записи из дней недели?

У меня есть таблица улья, которые содержат ежедневные записи. Я хочу выбрать запись из дней недели. Поэтому я использую запрос ниже, чтобы сделать это. Я использую QUBOLE API для этого. SELECT hour(pickup_time), COUNT(passengerid) FROM home_pickup W…
21 авг '17 в 05:07
0 ответов

Получить всю статистику столбца с помощью одного запроса Hive

Я понимаю, что всю статистику столбцов можно вычислить для таблицы Hive с помощью команды ANALYZE TABLE Table1 COMPUTE STATISTICS; Затем определенную статистику уровня столбца можно получить с помощью команды - DESCRIBE FORMATTED Table1.Column1; ...…
10 июл '18 в 11:00
1 ответ

Разделите данные Spark DataFrame на отдельные файлы

У меня есть следующий ввод DataFrame из файла s3 и мне нужно преобразовать данные в следующий желаемый вывод. Я использую Spark версии 1.5.1 со Scala, но могу перейти на Spark с Python. Любые предложения приветствуются. Ввод DataFrame: name animal d…
11 ноя '16 в 18:18
0 ответов

Большие файлы, вызывающие ошибку случайного воспроизведения в карте hadoop, уменьшают

Я вижу следующую ошибку при попытке обработать большой файл размером более 35 ГБ, но не происходит, когда я пытаюсь использовать менее большой файл размером менее 10 ГБ. App > Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: e…
08 окт '18 в 18:18
1 ответ

Получить правильное значение из массива в Hive QL

У меня есть Wrapped Array, и я хочу получить соответствующую структуру значений только при запросе с LATERAL VIEW EXPLODE. ОБРАЗЕЦ СТРУКТУРА: КОЛУМНАМ: theARRAY WrappedArray([null,theVal,valTags,[123,null,null,null,null,null],false], [null,theVar,va…
26 сен '18 в 00:49
1 ответ

Импортировать CSV-файл в Qubole

Я использую Qubole для запуска предварительных запросов. Мне нужно загрузить файл CSV в мой запрос, но не могу понять, как это сделать. У кого-нибудь есть опыт с этим? Для более подробной информации, я нахожусь в разделе анализа. Это то, что я до си…
27 авг '18 в 15:08
2 ответа

Автомасштабирование EMR- это обязательно? Должен ли я просто использовать EC2? Должен ли я просто использовать Qubole?

Чтобы сократить время на подготовку, мы решили сохранить выделенный кластер EMR с 5 экземплярами (ожидается, что потребуется около 5). В случае, если нам нужно больше, мы думаем, что нам нужно будет реализовать некоторый вид автомасштабирования. Я с…
2 ответа

Разные результаты при различном подсчете за разные периоды времени

Я пытаюсь получить количество уникальных посетителей. Сначала я проверил его по общему количеству, не разделяя его в любое время. Основная таблица (образец таблицы больших данных): +-----------+----+-------+ |theDateTime|vD | vis | +----------------…
1 ответ

Задание pyspark в qubole завершается с ошибкой "Повторная попытка вывода исключений при чтении"

У меня есть задание pyspark, запущенное через qubole, которое завершается ошибкой со следующей ошибкой. Qubole > Shell Command failed, exit code unknown Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading …
03 дек '16 в 17:50
0 ответов

Pentaho Data Integration (PDI) и Qubole

Кто-нибудь использовал Pentaho Data Integration для подключения к Qubole, используя свой проприетарный драйвер JDBC? Я скачал драйвер с их сайта и установил на Linux linux vm под управлением Pentaho - но, похоже, есть еще один шаг к тому, чтобы прог…
12 мар '18 в 21:03
1 ответ

Сравнение данных за один день из S3-контейнеров быстрее

Рассмотрим 2 потока данных ниже 1. Front End Box ----> S3 Bucket-1 2. Front End Box ----> Kafka --> Storm ---> S3 Bucket-2 Логи из ящиков передаются в ведра S3. Требование заменить поток 1 потоком 2. Теперь данные должны быть проверены м…
25 апр '17 в 21:02
0 ответов

AmazonS3ClientBuilder вызывает исключение из контейнера-запуска в qubole hadoop

Рассмотрим следующее public class myMapper extends Mapper<Object, Text, Text, Text> { static { try { AWSCredentials credentials = new BasicAWSCredentials( "my_access_key", "my_secret_key" ); AmazonS3 s3client = AmazonS3ClientBuilder .standard(…
12 июл '18 в 21:30
1 ответ

Как запросить данные из gz-файла Amazon S3 с помощью запроса Qubole Hive?

Мне нужно получить конкретные данные от GZ. как написать sql? я могу просто sql как таблица базы данных?: Select * from gz_File_Name where key = 'keyname' limit 10. но всегда возвращаюсь с ошибкой.
22 мар '17 в 05:28
0 ответов

Вернуть пустое и запустить успешно - скрипт Scala запускается на Qubole

import org.apache.spark.sql._ import org.apache.spark._ import org.apache.spark.sql.SQLContext import java.util._ import java.text._ import com.databricks.spark.avro._ import java.sql.{Connection, DriverManager, ResultSet} import org.apache.spark.sq…
11 апр '18 в 08:51
1 ответ

Как убить работу hadoop изящно / перехватить `hadoop job -kill`

Мое Java-приложение работает на mapper и создает дочерние процессы, используя Qubole API. Приложение хранит дочерние quoble queryIDs. Мне нужно перехватить сигнал уничтожения и закрыть дочерние процессы перед выходом. hadoop job -kill jobId а также …
30 май '17 в 19:16
1 ответ

Qubole: Как я могу загрузить результат планировщика в Python?

Как и в случае с заголовком, мне удалось самостоятельно загрузить результат Qubole, используя идентификатор запроса в python, однако есть ли способ загрузить результат, используя идентификатор задания планировщика вместо идентификатора запроса? Благ…
29 дек '17 в 08:00