Описание тега qubole
Qubole Data Service (QDS) - облачный сервис больших данных, работающий в эластичном кластере на основе Hadoop.
2
ответа
Исправление java.lang.NoSuchMethodError: com.amazonaws.util.StringUtils.trim
Рассмотрим следующую ошибку: 2018-07-12 22:46:36,087 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.NoSuchMethodError: com.amazonaws.util.StringUtils.trim(Ljava/lang/String;)Ljava/lang/String; at com.amazonaws.auth.…
12 июл '18 в 23:04
0
ответов
Выбрать таблицу из базы данных в R
Я использую dbplyr для выбора таблицы из удаленной базы данных с помощью Rstudio. Я связался со Spark на сервере, используя livy. Он показывает мне базы данных, которые у меня есть, но когда я пытаюсь получить доступ к одной из таблиц в одной из схе…
17 июл '18 в 16:12
1
ответ
Задать расположение раздела в метаборе Qubole с помощью Spark
Как установить расположение раздела для моей таблицы Hive в метаборе Qubole? Я знаю, что это MySQL DB, но как получить к нему доступ и передать SQL-скрипт с исправлением с помощью Spark? UPD: проблема в том, что ALTER TABLE table_name [PARTITION (pa…
11 апр '18 в 12:20
1
ответ
Отладка неудачных перемешиваний в Hadoop Map уменьшает
Я вижу, как увеличивается размер входного файла. Неудачные тасования увеличиваются, а время выполнения задания увеличивается нелинейно. например. 75GB took 1h 86GB took 5h Я также вижу увеличение среднего времени перемешивания в 10 раз например. 75G…
21 сен '18 в 18:03
1
ответ
Как выбрать записи из дней недели?
У меня есть таблица улья, которые содержат ежедневные записи. Я хочу выбрать запись из дней недели. Поэтому я использую запрос ниже, чтобы сделать это. Я использую QUBOLE API для этого. SELECT hour(pickup_time), COUNT(passengerid) FROM home_pickup W…
21 авг '17 в 05:07
0
ответов
Получить всю статистику столбца с помощью одного запроса Hive
Я понимаю, что всю статистику столбцов можно вычислить для таблицы Hive с помощью команды ANALYZE TABLE Table1 COMPUTE STATISTICS; Затем определенную статистику уровня столбца можно получить с помощью команды - DESCRIBE FORMATTED Table1.Column1; ...…
10 июл '18 в 11:00
1
ответ
Разделите данные Spark DataFrame на отдельные файлы
У меня есть следующий ввод DataFrame из файла s3 и мне нужно преобразовать данные в следующий желаемый вывод. Я использую Spark версии 1.5.1 со Scala, но могу перейти на Spark с Python. Любые предложения приветствуются. Ввод DataFrame: name animal d…
11 ноя '16 в 18:18
0
ответов
Большие файлы, вызывающие ошибку случайного воспроизведения в карте hadoop, уменьшают
Я вижу следующую ошибку при попытке обработать большой файл размером более 35 ГБ, но не происходит, когда я пытаюсь использовать менее большой файл размером менее 10 ГБ. App > Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: e…
08 окт '18 в 18:18
1
ответ
Получить правильное значение из массива в Hive QL
У меня есть Wrapped Array, и я хочу получить соответствующую структуру значений только при запросе с LATERAL VIEW EXPLODE. ОБРАЗЕЦ СТРУКТУРА: КОЛУМНАМ: theARRAY WrappedArray([null,theVal,valTags,[123,null,null,null,null,null],false], [null,theVar,va…
26 сен '18 в 00:49
1
ответ
Импортировать CSV-файл в Qubole
Я использую Qubole для запуска предварительных запросов. Мне нужно загрузить файл CSV в мой запрос, но не могу понять, как это сделать. У кого-нибудь есть опыт с этим? Для более подробной информации, я нахожусь в разделе анализа. Это то, что я до си…
27 авг '18 в 15:08
2
ответа
Автомасштабирование EMR- это обязательно? Должен ли я просто использовать EC2? Должен ли я просто использовать Qubole?
Чтобы сократить время на подготовку, мы решили сохранить выделенный кластер EMR с 5 экземплярами (ожидается, что потребуется около 5). В случае, если нам нужно больше, мы думаем, что нам нужно будет реализовать некоторый вид автомасштабирования. Я с…
05 ноя '14 в 00:13
2
ответа
Разные результаты при различном подсчете за разные периоды времени
Я пытаюсь получить количество уникальных посетителей. Сначала я проверил его по общему количеству, не разделяя его в любое время. Основная таблица (образец таблицы больших данных): +-----------+----+-------+ |theDateTime|vD | vis | +----------------…
13 окт '18 в 18:15
1
ответ
Задание pyspark в qubole завершается с ошибкой "Повторная попытка вывода исключений при чтении"
У меня есть задание pyspark, запущенное через qubole, которое завершается ошибкой со следующей ошибкой. Qubole > Shell Command failed, exit code unknown Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading …
03 дек '16 в 17:50
0
ответов
Pentaho Data Integration (PDI) и Qubole
Кто-нибудь использовал Pentaho Data Integration для подключения к Qubole, используя свой проприетарный драйвер JDBC? Я скачал драйвер с их сайта и установил на Linux linux vm под управлением Pentaho - но, похоже, есть еще один шаг к тому, чтобы прог…
12 мар '18 в 21:03
1
ответ
Сравнение данных за один день из S3-контейнеров быстрее
Рассмотрим 2 потока данных ниже 1. Front End Box ----> S3 Bucket-1 2. Front End Box ----> Kafka --> Storm ---> S3 Bucket-2 Логи из ящиков передаются в ведра S3. Требование заменить поток 1 потоком 2. Теперь данные должны быть проверены м…
25 апр '17 в 21:02
0
ответов
AmazonS3ClientBuilder вызывает исключение из контейнера-запуска в qubole hadoop
Рассмотрим следующее public class myMapper extends Mapper<Object, Text, Text, Text> { static { try { AWSCredentials credentials = new BasicAWSCredentials( "my_access_key", "my_secret_key" ); AmazonS3 s3client = AmazonS3ClientBuilder .standard(…
12 июл '18 в 21:30
1
ответ
Как запросить данные из gz-файла Amazon S3 с помощью запроса Qubole Hive?
Мне нужно получить конкретные данные от GZ. как написать sql? я могу просто sql как таблица базы данных?: Select * from gz_File_Name where key = 'keyname' limit 10. но всегда возвращаюсь с ошибкой.
22 мар '17 в 05:28
0
ответов
Вернуть пустое и запустить успешно - скрипт Scala запускается на Qubole
import org.apache.spark.sql._ import org.apache.spark._ import org.apache.spark.sql.SQLContext import java.util._ import java.text._ import com.databricks.spark.avro._ import java.sql.{Connection, DriverManager, ResultSet} import org.apache.spark.sq…
11 апр '18 в 08:51
1
ответ
Как убить работу hadoop изящно / перехватить `hadoop job -kill`
Мое Java-приложение работает на mapper и создает дочерние процессы, используя Qubole API. Приложение хранит дочерние quoble queryIDs. Мне нужно перехватить сигнал уничтожения и закрыть дочерние процессы перед выходом. hadoop job -kill jobId а также …
30 май '17 в 19:16
1
ответ
Qubole: Как я могу загрузить результат планировщика в Python?
Как и в случае с заголовком, мне удалось самостоятельно загрузить результат Qubole, используя идентификатор запроса в python, однако есть ли способ загрузить результат, используя идентификатор задания планировщика вместо идентификатора запроса? Благ…
29 дек '17 в 08:00