Описание тега elastic-map-reduce

Описание тега Вопросы с тегом

Amazon Elastic MapReduce - это веб-сервис, который позволяет обрабатывать большие объемы данных.

0 ответов

Воссоздать базу данных Hive из Metastore в RDS

Если я настроил кластер EMR для хранения его HCatalog в RDS MySQL, как указано здесь, как я могу воссоздать кластер и структуру с использованием метастаза, если кластер завершен?

08 мар '18 в 09:54

1 ответ

Минимальные требования политики AWS для запуска задания EMR

Я хотел бы запустить Elastic Mapreduce на данных из корзины S3 com.test.mybucketс использованием среды MRJob Python. Однако у меня есть много других данных в S3 и других экземплярах EC2, которые я не хочу касаться. Каков минимально возможный набор у…

amazon-web-services elastic-map-reduce mrjob

06 дек '11 в 19:31

1 ответ

Как настроить AWS EMR для использования s3 в качестве хранилища hdfs

Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …

hdfs amazon-emr emr elastic-map-reduce

10 май '18 в 11:35

1 ответ

Ошибка Hadoop при копировании входного файла bz2 из s3

У меня есть задание hadoop только для карт, работающее на Amazon EMR, работающее на последней ami-версии: 3.0.4. Время от времени я получаю исключения вроде этого: Error: com.amazonaws.AmazonClientException: Unable to verify integrity of data downlo…

hadoop amazon elastic-map-reduce bzip2

23 апр '14 в 23:30

1 ответ

Как вычесть в парадигме Map Reduce

У меня есть следующий набор данных s1, s2, count 1, 2, x1 1, 3, x2 1, 4, x3 2, 1, y1 2, 3, y2 2, 4, y3 3, 1, z1 3, 2, z2 Я хочу получить следующий вывод s1, s2, count 1, 2, x1-y1 1, 3, x2-z1 1, 4, x3 2, 3, y2-z2 2, 4, y3 Идея состоит в том, что s1 я…

hadoop mapreduce distributed-computing emr elastic-map-reduce

25 окт '17 в 15:40

1 ответ

Выполнение запросов HIVE непосредственно из входных файлов S3

Я использую Интерактивный сеанс Hive в Elastice Map Reduce для запуска Hive. Ранее я загружал данные из S3 в таблицы Hive. Теперь я хочу запустить некоторые сценарии для входных файлов S3 без загрузки данных в таблицы Hive. Возможно ли это? Если да,…

amazon-web-services amazon-s3 hive elastic-map-reduce

04 дек '12 в 06:28

1 ответ

Можно ли получить доступ к базовому org.apache.hadoop.mapreduce.Job из задания Scalding?

В моей работе Scalding у меня есть такой код: import org.apache.hadoop.mapreduce.lib.input.FileInputFormat class MyJob(args: Args) extends Job(args) { FileInputFormat.setInputPathFilter(???, classOf[MyFilter]) // ... rest of job ... } class MyFilter…

amazon-web-services hadoop elastic-map-reduce cascading scalding

05 май '16 в 10:36

1 ответ

Amazon EMR: установите уникальное количество картографов и редукторов для каждого экземпляра EMR

Я использую кластер Amazon EMR, который имеет M основных экземпляров и N экземпляров задач. Мои задания выполняются несколько раз в день и чувствительны ко времени, поэтому я поддерживаю и запускаю экземпляры ядра M круглосуточно, чтобы у меня не бы…

hadoop configuration mapreduce elastic-map-reduce

21 июн '12 в 15:08

2 ответа

Настройка внешнего источника данных для Elastic MapReduce

Мы хотим использовать Amazon Elastic MapReduce поверх нашей текущей БД (мы используем Cassandra в EC2). Глядя на часто задаваемые вопросы по Amazon EMR, это должно быть возможно: Часто задаваемые вопросы по Amazon EMR: В: Могу ли я загрузить свои да…

amazon-web-services cassandra elastic-map-reduce

29 авг '12 в 12:00

0 ответов

Как сохранить файл в формате.pig с помощью Windows?

Я только что попытался запустить работу Elastic MapReduce, используя скрипт Pig. Я создал скрипт Pig в Блокноте, первоначально сохранил его как файл.txt, затем вручную изменил расширение на.pig и загрузил. Вот ошибка, которую я получил: Run Pig Scri…

amazon-ec2 apache-pig elastic-map-reduce

24 апр '13 в 14:59

1 ответ

Elastic MapReduce завершается с ошибкой: 1: синтаксическая ошибка: "(" неожиданно

Я пытаюсь запустить собственный двоичный файл, скомпилированный на моем x86 Debian Squeeze box (для соответствия Amazon AMI), и я постоянно получаю эту странную ошибку /mnt/var/lib/hadoop/mapred/taskTracker/hadoop/jobcache/job_201206011019_0001/atte…

elastic-map-reduce

01 июн '12 в 10:41

0 ответов

Pig Join не возвращает результатов

Я застрял на этой проблеме более двенадцати часов. У меня есть сценарий Pig, который работает на Amazon Web Services. В настоящее время я просто запускаю свой скрипт в интерактивном режиме. Я пытаюсь получить средние значения для большого набора дан…

amazon-web-services hadoop nosql apache-pig elastic-map-reduce

03 май '13 в 01:02

1 ответ

Force one Редуктор в AWS EMR

Как я могу убедиться, что есть только редуктор для моей работы EMR Streaming? Есть ли способ сделать это из веб-интерфейса, когда я создаю новый Jobflow?

amazon-web-services elastic-map-reduce

15 ноя '11 в 20:30

2 ответа

DynamoDB InputFormat для Hadoop

Я должен обработать некоторые данные, которые сохраняются в Amazon Dynamo DB, используя Hadoop Map Reduce. Я искал в интернете Hadoop InputFormat для DB Dynamo и не смог его найти. Я не знаком с Dynamo DB, поэтому я предполагаю, что есть какая-то хи…

amazon-web-services hadoop amazon-dynamodb mapreduce elastic-map-reduce

22 окт '12 в 21:22

1 ответ

mmh3 не установлен на Elastic MapReduce в AWS

Мне нужно использовать mmh3 для хеширования. Однако, когда я запускаю "python MultiwayJoin.py R.csv S.csv T.csv -r emr > output.txt" в терминале, он возвращает ошибку, в которой говорится: Файл "MultiwayJoin.py", строка 5, при импорте mmh3 Ошибка им…

python amazon-web-services elastic-map-reduce

02 июн '14 в 18:55

1 ответ

boto ElasticMapReduce регулирование и ограничение скорости

Я несколько раз сталкивался с ограничением скорости из Amazon EMR через API-интерфейс boto со следующим: boto.exception.EmrResponseError: EmrResponseError: 400 Bad Request <ErrorResponse xmlns="http://elasticmapreduce.amazonaws.com/doc/2009-03-31…

amazon-ec2 boto throttling rate-limiting elastic-map-reduce

16 май '11 в 17:46

1 ответ

Как написать программу mapreduce с amazon ec2 и s3

Я хочу проанализировать данные, хранящиеся в Amazon S3, как я могу написать Java-программу на Amazon EMR и получить доступ к этим данным. URL-адрес данных: http://s3.amazonaws.com/aws-publicdatasets/trec/kba/FAKBA1/index.html

amazon-web-services amazon-s3 elastic-map-reduce

21 фев '15 в 16:02

2 ответа

ColumnFamilyInputFormat - не удалось получить входные разбиения

Я получаю странное исключение, когда пытаюсь получить доступ к Cassandra из hadoop, используя класс ColumnFamilyInputFormat. В моем процессе hadoop я подключаюсь к cassandra следующим образом, после включения cassandra-all.jar версии 1.1: private vo…

hadoop cassandra nosql elastic-map-reduce

26 ноя '12 в 14:33

1 ответ

Amazon Elastic Map Reduce: проблема с установкой инструментов командной строки?

Я новичок в веб-сервисах Amazon. Я пытаюсь запускать потоки заданий на эластичной карте Amazon, сокращая количество рабочих мест с помощью инструментов интерфейса командной строки. Я следовал инструкциям руководства разработчика Amazon по этому руко…

amazon-web-services hadoop cloudera elastic-map-reduce ganglia

21 июл '13 в 08:48

2 ответа

Загрузка файлов с FTP на локальный компьютер с использованием Java делает файл нечитаемым - проблемы с кодировкой

Я разработал код, который читает очень большие файлы с FTP и записывает их на локальный компьютер с помощью Java. Код, который делает это следующим образом. Это часть из next(Text key, Text value) внутри RecordReader из CustomInputFormat if(!process…

java hadoop ftp amazon-emr elastic-map-reduce

02 янв '13 в 06:23