Описание тега amazon-data-pipeline

Описание тега Вопросы с тегом

Простой сервис для передачи данных между сервисами хранения данных Amazon, запуска заданий Elastic MapReduce и подключения к внешним сервисам данных.

1 ответ

Как отключить шаг установки PIG из конвейера данных AWS

Я создаю конвейер данных, используя кластер EMR в качестве ресурса. Когда сервер создается после начальной загрузки, он автоматически выполняет какой-то шаг, enable debugging, Install Hive Install Pig install Task runner Все хорошо. Но я хочу убрать…

amazon-data-pipeline

12 ноя '13 в 07:07

1 ответ

Автоматизация Hive Activity с использованием aws

Я хотел бы автоматизировать мой скрипт улья каждый день, для этого у меня есть опция, которая представляет собой конвейер данных. Но проблема в том, что я экспортирую данные из динамо-db в s3 и с помощью скрипта улья я манипулирую этими данными. Я д…

31 окт '13 в 14:48

2 ответа

Может ли действие жизненного цикла S3 иметь предварительные условия?

У меня есть активность конвейера данных AWS, которая ежедневно читает 2 файла данных, которые поступают во входящее ведро из внешней системы. Конвейер данных импортирует эти данные в базу данных. После завершения обработки конвейера данных я хочу ав…

amazon-web-services amazon-s3 amazon-data-pipeline

11 авг '16 в 06:53

1 ответ

Сбой конвейера данных для EMR Activity

Я пытаюсь сделать шаг зажигания на AWS Data-pipe. Я получаю следующее исключение:- amazonaws.datapipeline.taskrunner.TaskExecutionException: Не удалось завершить преобразование EMR. at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActiv…

apache-spark amazon-emr amazon-data-pipeline

20 ноя '17 в 12:37

2 ответа

Более одного объекта соответствует предикату (всего 2) в конвейере данных AWS

В консоли конвейера данных AWS, когда я загружаю файл определения конвейера, я всегда получаю эту ошибку - Не удалось создать конвейер. Конвейеру данных не удалось создать конвейер: более одного объекта соответствует предикату (всего 2). (Сервис: но…

amazon-web-services amazon-data-pipeline

08 апр '15 в 08:17

1 ответ

Можно ли создать объект конвейерного массива в канале данных AWS с помощью Cloudformation?

При создании конвейера данных через API / CLI, который создает EmrCluster, я могу указать несколько шагов, используя структуру массива: { "objects" : [ { "id" : "myEmrCluster", "terminateAfter" : "1 hours", "schedule" : {"ref":"theSchedule"} "step" …

amazon-web-services aws-cloudformation amazon-data-pipeline

24 мар '17 в 09:57

1 ответ

Какова логика минимального 15-минутного интервала в планировании AWS DataPipeline?

Недавно меня попросили создать механизм для получения данных с нашего RDS MySQL в режиме, близком к реальному времени, то есть в течение 5 секунд. до 5 минут Прочитав Lambda, Flydata и Data Pipelines, я выбрал AWS Data Pipeline, так как многие форум…

amazon-web-services amazon-rds real-time amazon-data-pipeline data-integration

29 июл '16 в 12:09

1 ответ

Канал данных AWS пропускает удаленный JAR в S3

У меня есть конвейер данных AWS, в котором я пытаюсь выполнить шаг, код которого находится в JAR, расположенном в корзине S3. Я указываю путь и имя класса, но журналы конвейера читают "Предупреждение: пропустить удаленный jar", и мой код никогда не …

amazon-data-pipeline

22 фев '18 в 18:17

0 ответов

HIVE_CURSOR_ERROR: неожиданный конец входного потока

Я перемещаю данные из Mysql в S3, используя конвейер данных, и он создает пустой файл в течение нескольких дней. Я считаю, что это делает мой запрос Афины терпит неудачу с Msgstr "HIVE_CURSOR_ERROR: неожиданный конец входного потока". Ниже мой сцена…

amazon-s3 hive amazon-athena amazon-data-pipeline

18 апр '18 в 00:35

2 ответа

Преобразовать CSV в необходимый формат для импорта в DynamoDB с помощью AWS Datapipeline

Документы AWS для импорта данных из S3 в таблицу DB Dynamo с использованием конвейера данных ( https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part1.html) ссылаются на файл S3 (s3://asticmapreduce/samples/Store/Pro…

amazon-web-services amazon-s3 amazon-dynamodb amazon-data-pipeline

02 авг '16 в 05:22

3 ответа

Обрабатывать логи доступа s3 с помощью AWS datapipeline

Мой пример использования - периодически обрабатывать журналы доступа S3 (с этими 18 полями) и передавать их в таблицу RDS. Я использую конвейер данных AWS для выполнения этой задачи каждый день, чтобы обрабатывать журналы предыдущего дня. Я решил ра…

amazon-web-services amazon-s3 amazon-rds amazon-data-pipeline

07 июл '15 в 11:40

2 ответа

Копия красного смещения с использованием конвейера amazon не работает из-за отсутствия первичного ключа

У меня есть набор файлов на S3, которые я пытаюсь загрузить в красное смещение. Я использую конвейер данных Amazon для этого. мастер взял информацию о кластере, БД и формате файла, но я получаю ошибки, что требуется первичный ключ, чтобы сохранить с…

amazon-redshift amazon-data-pipeline

19 фев '15 в 00:28

1 ответ

Запустить команду оболочки, если в конвейерах данных aws происходит сбой emr

Как в AWS Data Pipelines можно запускать команду оболочки ТОЛЬКО в случае сбоя определенного действия, такого как действие EMR? Я вижу опцию "onFail", но она запускает только действие amazon, которое определяется как: http://docs.aws.amazon.com/data…

amazon-data-pipeline

15 апр '16 в 07:01

1 ответ

AWS Data Pipeline. EC2Resource не может получить доступ к красному смещению

Я использую AWS Data Pipeline для выполнения SQL-запросов с красным смещением, которые могут включать (создание / удаление таблиц) в первый раз. Создано действие SQL, которое "запускается", экземпляр EC2, созданный как часть конвейера данных, и узел…

amazon-web-services amazon-redshift amazon-iam amazon-data-pipeline

22 янв '18 в 06:33

0 ответов

Динамическая передача ScriptArguments в AWS Data Pipeline

Я настроил простой конвейер данных AWS с ShellCommandActivity. Этот конвейер будет работать ежедневно, чтобы ВЫГРУЗИТЬ данные из Redshift на S3. Мне нужно указывать разные условия WHERE в инструкции SELECT UNLOAD при каждом запуске. Можем ли мы испо…

amazon-web-services amazon-data-pipeline

19 сен '17 в 05:51

2 ответа

Вызов конвейера из конвейера в Amazon Data Pipeline

Моя рабочая команда в настоящее время ищет замену довольно дорогому инструменту ETL, который на данный момент мы используем в качестве прославленного планировщика. Любую интеграцию, предлагаемую инструментом ETL, мы улучшили с помощью нашего собстве…

etl batch-processing scheduler amazon-data-pipeline

14 апр '15 в 22:28

1 ответ

Передача переменных между экземплярами EC2 в многошаговом конвейере данных AWS

У меня есть настройка конвейера, в которой у меня есть 3 основных этапа: 1) Возьмите вход из заархивированного файла, разархивируйте этот файл в s3. выполните базовую проверку каждого файла, чтобы гарантировать его целостность, перейдите к шагу 2 2)…

amazon-web-services amazon-ec2 amazon-data-pipeline

15 июл '16 в 20:39

1 ответ

Ошибка при экспорте данных из DynamodB в S3 с помощью Amazon Data Pipe

Я пытаюсь использовать службу конвейера данных для экспорта данных из DynamodB в S3, но получаю следующую ошибку. Невозможно создать ресурс для @EmrClusterForBackup_ из-за: Предоставленная версия ami неверна. (Сервис: AmazonElasticMapReduce; Код сос…

amazon-web-services amazon-s3 amazon-dynamodb amazon-data-pipeline

01 дек '17 в 23:14

0 ответов

Журналы кластера EMR сообщают, что версия Python не существует при запуске задания конвейера данных, когда эта версия установлена

Всем доброе утро! Я немного запутался во всех различных слоях абстракции, поэтому я надеюсь, что, разместив этот вопрос, я оба немного пойму мою проблему и, возможно, соберу ваши идеи о том, что является причиной проблемы. Моя настройка: 1 EMR-класт…

python amazon-web-services python-3.6 amazon-emr amazon-data-pipeline

18 май '18 в 14:57

1 ответ

Дамп конвейера данных для DynamoDb на S3 все время терпел неудачу

Я использовал инструкцию для настройки дампов для DynamoDb: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html Настройка Data Pipeline прошла нормально. Но после выполнения задания у меня все время одна и та…

amazon-dynamodb dump amazon-data-pipeline

16 фев '17 в 10:40