Описание тега amazon-data-pipeline
Простой сервис для передачи данных между сервисами хранения данных Amazon, запуска заданий Elastic MapReduce и подключения к внешним сервисам данных.
1
ответ
Как отключить шаг установки PIG из конвейера данных AWS
Я создаю конвейер данных, используя кластер EMR в качестве ресурса. Когда сервер создается после начальной загрузки, он автоматически выполняет какой-то шаг, enable debugging, Install Hive Install Pig install Task runner Все хорошо. Но я хочу убрать…
12 ноя '13 в 07:07
1
ответ
Автоматизация Hive Activity с использованием aws
Я хотел бы автоматизировать мой скрипт улья каждый день, для этого у меня есть опция, которая представляет собой конвейер данных. Но проблема в том, что я экспортирую данные из динамо-db в s3 и с помощью скрипта улья я манипулирую этими данными. Я д…
31 окт '13 в 14:48
2
ответа
Может ли действие жизненного цикла S3 иметь предварительные условия?
У меня есть активность конвейера данных AWS, которая ежедневно читает 2 файла данных, которые поступают во входящее ведро из внешней системы. Конвейер данных импортирует эти данные в базу данных. После завершения обработки конвейера данных я хочу ав…
11 авг '16 в 06:53
1
ответ
Сбой конвейера данных для EMR Activity
Я пытаюсь сделать шаг зажигания на AWS Data-pipe. Я получаю следующее исключение:- amazonaws.datapipeline.taskrunner.TaskExecutionException: Не удалось завершить преобразование EMR. at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActiv…
20 ноя '17 в 12:37
2
ответа
Более одного объекта соответствует предикату (всего 2) в конвейере данных AWS
В консоли конвейера данных AWS, когда я загружаю файл определения конвейера, я всегда получаю эту ошибку - Не удалось создать конвейер. Конвейеру данных не удалось создать конвейер: более одного объекта соответствует предикату (всего 2). (Сервис: но…
08 апр '15 в 08:17
1
ответ
Можно ли создать объект конвейерного массива в канале данных AWS с помощью Cloudformation?
При создании конвейера данных через API / CLI, который создает EmrCluster, я могу указать несколько шагов, используя структуру массива: { "objects" : [ { "id" : "myEmrCluster", "terminateAfter" : "1 hours", "schedule" : {"ref":"theSchedule"} "step" …
24 мар '17 в 09:57
1
ответ
Какова логика минимального 15-минутного интервала в планировании AWS DataPipeline?
Недавно меня попросили создать механизм для получения данных с нашего RDS MySQL в режиме, близком к реальному времени, то есть в течение 5 секунд. до 5 минут Прочитав Lambda, Flydata и Data Pipelines, я выбрал AWS Data Pipeline, так как многие форум…
29 июл '16 в 12:09
1
ответ
Канал данных AWS пропускает удаленный JAR в S3
У меня есть конвейер данных AWS, в котором я пытаюсь выполнить шаг, код которого находится в JAR, расположенном в корзине S3. Я указываю путь и имя класса, но журналы конвейера читают "Предупреждение: пропустить удаленный jar", и мой код никогда не …
22 фев '18 в 18:17
0
ответов
HIVE_CURSOR_ERROR: неожиданный конец входного потока
Я перемещаю данные из Mysql в S3, используя конвейер данных, и он создает пустой файл в течение нескольких дней. Я считаю, что это делает мой запрос Афины терпит неудачу с Msgstr "HIVE_CURSOR_ERROR: неожиданный конец входного потока". Ниже мой сцена…
18 апр '18 в 00:35
2
ответа
Преобразовать CSV в необходимый формат для импорта в DynamoDB с помощью AWS Datapipeline
Документы AWS для импорта данных из S3 в таблицу DB Dynamo с использованием конвейера данных ( https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part1.html) ссылаются на файл S3 (s3://asticmapreduce/samples/Store/Pro…
02 авг '16 в 05:22
3
ответа
Обрабатывать логи доступа s3 с помощью AWS datapipeline
Мой пример использования - периодически обрабатывать журналы доступа S3 (с этими 18 полями) и передавать их в таблицу RDS. Я использую конвейер данных AWS для выполнения этой задачи каждый день, чтобы обрабатывать журналы предыдущего дня. Я решил ра…
07 июл '15 в 11:40
2
ответа
Копия красного смещения с использованием конвейера amazon не работает из-за отсутствия первичного ключа
У меня есть набор файлов на S3, которые я пытаюсь загрузить в красное смещение. Я использую конвейер данных Amazon для этого. мастер взял информацию о кластере, БД и формате файла, но я получаю ошибки, что требуется первичный ключ, чтобы сохранить с…
19 фев '15 в 00:28
1
ответ
Запустить команду оболочки, если в конвейерах данных aws происходит сбой emr
Как в AWS Data Pipelines можно запускать команду оболочки ТОЛЬКО в случае сбоя определенного действия, такого как действие EMR? Я вижу опцию "onFail", но она запускает только действие amazon, которое определяется как: http://docs.aws.amazon.com/data…
15 апр '16 в 07:01
1
ответ
AWS Data Pipeline. EC2Resource не может получить доступ к красному смещению
Я использую AWS Data Pipeline для выполнения SQL-запросов с красным смещением, которые могут включать (создание / удаление таблиц) в первый раз. Создано действие SQL, которое "запускается", экземпляр EC2, созданный как часть конвейера данных, и узел…
22 янв '18 в 06:33
0
ответов
Динамическая передача ScriptArguments в AWS Data Pipeline
Я настроил простой конвейер данных AWS с ShellCommandActivity. Этот конвейер будет работать ежедневно, чтобы ВЫГРУЗИТЬ данные из Redshift на S3. Мне нужно указывать разные условия WHERE в инструкции SELECT UNLOAD при каждом запуске. Можем ли мы испо…
19 сен '17 в 05:51
2
ответа
Вызов конвейера из конвейера в Amazon Data Pipeline
Моя рабочая команда в настоящее время ищет замену довольно дорогому инструменту ETL, который на данный момент мы используем в качестве прославленного планировщика. Любую интеграцию, предлагаемую инструментом ETL, мы улучшили с помощью нашего собстве…
14 апр '15 в 22:28
1
ответ
Передача переменных между экземплярами EC2 в многошаговом конвейере данных AWS
У меня есть настройка конвейера, в которой у меня есть 3 основных этапа: 1) Возьмите вход из заархивированного файла, разархивируйте этот файл в s3. выполните базовую проверку каждого файла, чтобы гарантировать его целостность, перейдите к шагу 2 2)…
15 июл '16 в 20:39
1
ответ
Ошибка при экспорте данных из DynamodB в S3 с помощью Amazon Data Pipe
Я пытаюсь использовать службу конвейера данных для экспорта данных из DynamodB в S3, но получаю следующую ошибку. Невозможно создать ресурс для @EmrClusterForBackup_ из-за: Предоставленная версия ami неверна. (Сервис: AmazonElasticMapReduce; Код сос…
01 дек '17 в 23:14
0
ответов
Журналы кластера EMR сообщают, что версия Python не существует при запуске задания конвейера данных, когда эта версия установлена
Всем доброе утро! Я немного запутался во всех различных слоях абстракции, поэтому я надеюсь, что, разместив этот вопрос, я оба немного пойму мою проблему и, возможно, соберу ваши идеи о том, что является причиной проблемы. Моя настройка: 1 EMR-класт…
18 май '18 в 14:57
1
ответ
Дамп конвейера данных для DynamoDb на S3 все время терпел неудачу
Я использовал инструкцию для настройки дампов для DynamoDb: http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html Настройка Data Pipeline прошла нормально. Но после выполнения задания у меня все время одна и та…
16 фев '17 в 10:40