Описание тега elastic-map-reduce

Amazon Elastic MapReduce - это веб-сервис, который позволяет обрабатывать большие объемы данных.
0 ответов

Воссоздать базу данных Hive из Metastore в RDS

Если я настроил кластер EMR для хранения его HCatalog в RDS MySQL, как указано здесь, как я могу воссоздать кластер и структуру с использованием метастаза, если кластер завершен?
08 мар '18 в 09:54
1 ответ

Минимальные требования политики AWS для запуска задания EMR

Я хотел бы запустить Elastic Mapreduce на данных из корзины S3 com.test.mybucketс использованием среды MRJob Python. Однако у меня есть много других данных в S3 и других экземплярах EC2, которые я не хочу касаться. Каков минимально возможный набор у…
1 ответ

Как настроить AWS EMR для использования s3 в качестве хранилища hdfs

Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …
10 май '18 в 11:35
1 ответ

Ошибка Hadoop при копировании входного файла bz2 из s3

У меня есть задание hadoop только для карт, работающее на Amazon EMR, работающее на последней ami-версии: 3.0.4. Время от времени я получаю исключения вроде этого: Error: com.amazonaws.AmazonClientException: Unable to verify integrity of data downlo…
23 апр '14 в 23:30
1 ответ

Как вычесть в парадигме Map Reduce

У меня есть следующий набор данных s1, s2, count 1, 2, x1 1, 3, x2 1, 4, x3 2, 1, y1 2, 3, y2 2, 4, y3 3, 1, z1 3, 2, z2 Я хочу получить следующий вывод s1, s2, count 1, 2, x1-y1 1, 3, x2-z1 1, 4, x3 2, 3, y2-z2 2, 4, y3 Идея состоит в том, что s1 я…
1 ответ

Выполнение запросов HIVE непосредственно из входных файлов S3

Я использую Интерактивный сеанс Hive в Elastice Map Reduce для запуска Hive. Ранее я загружал данные из S3 в таблицы Hive. Теперь я хочу запустить некоторые сценарии для входных файлов S3 без загрузки данных в таблицы Hive. Возможно ли это? Если да,…
1 ответ

Можно ли получить доступ к базовому org.apache.hadoop.mapreduce.Job из задания Scalding?

В моей работе Scalding у меня есть такой код: import org.apache.hadoop.mapreduce.lib.input.FileInputFormat class MyJob(args: Args) extends Job(args) { FileInputFormat.setInputPathFilter(???, classOf[MyFilter]) // ... rest of job ... } class MyFilter…
1 ответ

Amazon EMR: установите уникальное количество картографов и редукторов для каждого экземпляра EMR

Я использую кластер Amazon EMR, который имеет M основных экземпляров и N экземпляров задач. Мои задания выполняются несколько раз в день и чувствительны ко времени, поэтому я поддерживаю и запускаю экземпляры ядра M круглосуточно, чтобы у меня не бы…
2 ответа

Настройка внешнего источника данных для Elastic MapReduce

Мы хотим использовать Amazon Elastic MapReduce поверх нашей текущей БД (мы используем Cassandra в EC2). Глядя на часто задаваемые вопросы по Amazon EMR, это должно быть возможно: Часто задаваемые вопросы по Amazon EMR: В: Могу ли я загрузить свои да…
0 ответов

Как сохранить файл в формате.pig с помощью Windows?

Я только что попытался запустить работу Elastic MapReduce, используя скрипт Pig. Я создал скрипт Pig в Блокноте, первоначально сохранил его как файл.txt, затем вручную изменил расширение на.pig и загрузил. Вот ошибка, которую я получил: Run Pig Scri…
24 апр '13 в 14:59
1 ответ

Elastic MapReduce завершается с ошибкой: 1: синтаксическая ошибка: "(" неожиданно

Я пытаюсь запустить собственный двоичный файл, скомпилированный на моем x86 Debian Squeeze box (для соответствия Amazon AMI), и я постоянно получаю эту странную ошибку /mnt/var/lib/hadoop/mapred/taskTracker/hadoop/jobcache/job_201206011019_0001/atte…
01 июн '12 в 10:41
0 ответов

Pig Join не возвращает результатов

Я застрял на этой проблеме более двенадцати часов. У меня есть сценарий Pig, который работает на Amazon Web Services. В настоящее время я просто запускаю свой скрипт в интерактивном режиме. Я пытаюсь получить средние значения для большого набора дан…
1 ответ

Force one Редуктор в AWS EMR

Как я могу убедиться, что есть только редуктор для моей работы EMR Streaming? Есть ли способ сделать это из веб-интерфейса, когда я создаю новый Jobflow?
15 ноя '11 в 20:30
2 ответа

DynamoDB InputFormat для Hadoop

Я должен обработать некоторые данные, которые сохраняются в Amazon Dynamo DB, используя Hadoop Map Reduce. Я искал в интернете Hadoop InputFormat для DB Dynamo и не смог его найти. Я не знаком с Dynamo DB, поэтому я предполагаю, что есть какая-то хи…
1 ответ

mmh3 не установлен на Elastic MapReduce в AWS

Мне нужно использовать mmh3 для хеширования. Однако, когда я запускаю "python MultiwayJoin.py R.csv S.csv T.csv -r emr > output.txt" в терминале, он возвращает ошибку, в которой говорится: Файл "MultiwayJoin.py", строка 5, при импорте mmh3 Ошибка им…
1 ответ

boto ElasticMapReduce регулирование и ограничение скорости

Я несколько раз сталкивался с ограничением скорости из Amazon EMR через API-интерфейс boto со следующим: boto.exception.EmrResponseError: EmrResponseError: 400 Bad Request <ErrorResponse xmlns="http://elasticmapreduce.amazonaws.com/doc/2009-03-31…
1 ответ

Как написать программу mapreduce с amazon ec2 и s3

Я хочу проанализировать данные, хранящиеся в Amazon S3, как я могу написать Java-программу на Amazon EMR и получить доступ к этим данным. URL-адрес данных: http://s3.amazonaws.com/aws-publicdatasets/trec/kba/FAKBA1/index.html
2 ответа

ColumnFamilyInputFormat - не удалось получить входные разбиения

Я получаю странное исключение, когда пытаюсь получить доступ к Cassandra из hadoop, используя класс ColumnFamilyInputFormat. В моем процессе hadoop я подключаюсь к cassandra следующим образом, после включения cassandra-all.jar версии 1.1: private vo…
26 ноя '12 в 14:33
1 ответ

Amazon Elastic Map Reduce: проблема с установкой инструментов командной строки?

Я новичок в веб-сервисах Amazon. Я пытаюсь запускать потоки заданий на эластичной карте Amazon, сокращая количество рабочих мест с помощью инструментов интерфейса командной строки. Я следовал инструкциям руководства разработчика Amazon по этому руко…
2 ответа

Загрузка файлов с FTP на локальный компьютер с использованием Java делает файл нечитаемым - проблемы с кодировкой

Я разработал код, который читает очень большие файлы с FTP и записывает их на локальный компьютер с помощью Java. Код, который делает это следующим образом. Это часть из next(Text key, Text value) внутри RecordReader из CustomInputFormat if(!process…
02 янв '13 в 06:23