Описание тега amazon-data-pipeline

Простой сервис для передачи данных между сервисами хранения данных Amazon, запуска заданий Elastic MapReduce и подключения к внешним сервисам данных.
1 ответ

Как отключить шаг установки PIG из конвейера данных AWS

Я создаю конвейер данных, используя кластер EMR в качестве ресурса. Когда сервер создается после начальной загрузки, он автоматически выполняет какой-то шаг, enable debugging, Install Hive Install Pig install Task runner Все хорошо. Но я хочу убрать…
12 ноя '13 в 07:07
1 ответ

Автоматизация Hive Activity с использованием aws

Я хотел бы автоматизировать мой скрипт улья каждый день, для этого у меня есть опция, которая представляет собой конвейер данных. Но проблема в том, что я экспортирую данные из динамо-db в s3 и с помощью скрипта улья я манипулирую этими данными. Я д…
2 ответа

Может ли действие жизненного цикла S3 иметь предварительные условия?

У меня есть активность конвейера данных AWS, которая ежедневно читает 2 файла данных, которые поступают во входящее ведро из внешней системы. Конвейер данных импортирует эти данные в базу данных. После завершения обработки конвейера данных я хочу ав…
1 ответ

Сбой конвейера данных для EMR Activity

Я пытаюсь сделать шаг зажигания на AWS Data-pipe. Я получаю следующее исключение:- amazonaws.datapipeline.taskrunner.TaskExecutionException: Не удалось завершить преобразование EMR. at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActiv…
2 ответа

Более одного объекта соответствует предикату (всего 2) в конвейере данных AWS

В консоли конвейера данных AWS, когда я загружаю файл определения конвейера, я всегда получаю эту ошибку - Не удалось создать конвейер. Конвейеру данных не удалось создать конвейер: более одного объекта соответствует предикату (всего 2). (Сервис: но…
08 апр '15 в 08:17
1 ответ

Можно ли создать объект конвейерного массива в канале данных AWS с помощью Cloudformation?

При создании конвейера данных через API / CLI, который создает EmrCluster, я могу указать несколько шагов, используя структуру массива: { "objects" : [ { "id" : "myEmrCluster", "terminateAfter" : "1 hours", "schedule" : {"ref":"theSchedule"} "step" …
1 ответ

Какова логика минимального 15-минутного интервала в планировании AWS DataPipeline?

Недавно меня попросили создать механизм для получения данных с нашего RDS MySQL в режиме, близком к реальному времени, то есть в течение 5 секунд. до 5 минут Прочитав Lambda, Flydata и Data Pipelines, я выбрал AWS Data Pipeline, так как многие форум…
1 ответ

Канал данных AWS пропускает удаленный JAR в S3

У меня есть конвейер данных AWS, в котором я пытаюсь выполнить шаг, код которого находится в JAR, расположенном в корзине S3. Я указываю путь и имя класса, но журналы конвейера читают "Предупреждение: пропустить удаленный jar", и мой код никогда не …
22 фев '18 в 18:17
0 ответов

HIVE_CURSOR_ERROR: неожиданный конец входного потока

Я перемещаю данные из Mysql в S3, используя конвейер данных, и он создает пустой файл в течение нескольких дней. Я считаю, что это делает мой запрос Афины терпит неудачу с Msgstr "HIVE_CURSOR_ERROR: неожиданный конец входного потока". Ниже мой сцена…
2 ответа

Преобразовать CSV в необходимый формат для импорта в DynamoDB с помощью AWS Datapipeline

Документы AWS для импорта данных из S3 в таблицу DB Dynamo с использованием конвейера данных ( https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part1.html) ссылаются на файл S3 (s3://asticmapreduce/samples/Store/Pro…
3 ответа

Обрабатывать логи доступа s3 с помощью AWS datapipeline

Мой пример использования - периодически обрабатывать журналы доступа S3 (с этими 18 полями) и передавать их в таблицу RDS. Я использую конвейер данных AWS для выполнения этой задачи каждый день, чтобы обрабатывать журналы предыдущего дня. Я решил ра…
2 ответа

Копия красного смещения с использованием конвейера amazon не работает из-за отсутствия первичного ключа

У меня есть набор файлов на S3, которые я пытаюсь загрузить в красное смещение. Я использую конвейер данных Amazon для этого. мастер взял информацию о кластере, БД и формате файла, но я получаю ошибки, что требуется первичный ключ, чтобы сохранить с…
19 фев '15 в 00:28
1 ответ

Запустить команду оболочки, если в конвейерах данных aws происходит сбой emr

Как в AWS Data Pipelines можно запускать команду оболочки ТОЛЬКО в случае сбоя определенного действия, такого как действие EMR? Я вижу опцию "onFail", но она запускает только действие amazon, которое определяется как: http://docs.aws.amazon.com/data…
15 апр '16 в 07:01
1 ответ

AWS Data Pipeline. EC2Resource не может получить доступ к красному смещению

Я использую AWS Data Pipeline для выполнения SQL-запросов с красным смещением, которые могут включать (создание / удаление таблиц) в первый раз. Создано действие SQL, которое "запускается", экземпляр EC2, созданный как часть конвейера данных, и узел…
0 ответов

Динамическая передача ScriptArguments в AWS Data Pipeline

Я настроил простой конвейер данных AWS с ShellCommandActivity. Этот конвейер будет работать ежедневно, чтобы ВЫГРУЗИТЬ данные из Redshift на S3. Мне нужно указывать разные условия WHERE в инструкции SELECT UNLOAD при каждом запуске. Можем ли мы испо…
19 сен '17 в 05:51
2 ответа

Вызов конвейера из конвейера в Amazon Data Pipeline

Моя рабочая команда в настоящее время ищет замену довольно дорогому инструменту ETL, который на данный момент мы используем в качестве прославленного планировщика. Любую интеграцию, предлагаемую инструментом ETL, мы улучшили с помощью нашего собстве…
1 ответ

Передача переменных между экземплярами EC2 в многошаговом конвейере данных AWS

У меня есть настройка конвейера, в которой у меня есть 3 основных этапа: 1) Возьмите вход из заархивированного файла, разархивируйте этот файл в s3. выполните базовую проверку каждого файла, чтобы гарантировать его целостность, перейдите к шагу 2 2)…
1 ответ

Ошибка при экспорте данных из DynamodB в S3 с помощью Amazon Data Pipe

Я пытаюсь использовать службу конвейера данных для экспорта данных из DynamodB в S3, но получаю следующую ошибку. Невозможно создать ресурс для @EmrClusterForBackup_ из-за: Предоставленная версия ami неверна. (Сервис: AmazonElasticMapReduce; Код сос…
0 ответов

Журналы кластера EMR сообщают, что версия Python не существует при запуске задания конвейера данных, когда эта версия установлена

Всем доброе утро! Я немного запутался во всех различных слоях абстракции, поэтому я надеюсь, что, разместив этот вопрос, я оба немного пойму мою проблему и, возможно, соберу ваши идеи о том, что является причиной проблемы. Моя настройка: 1 EMR-класт…
1 ответ

Дамп конвейера данных для DynamoDb на S3 все время терпел неудачу

Я использовал инструкцию для настройки дампов для DynamoDb: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html Настройка Data Pipeline прошла нормально. Но после выполнения задания у меня все время одна и та…
16 фев '17 в 10:40