Описание тега data-pipeline

Вопросы с тегом

1 ответ

Различные инструменты, доступные для создания конвейеров данных

Мне нужно создать конвейеры данных в Hadoop. У меня есть импорт, экспорт, сценарии для очистки данных, и мне нужно настроить их в конвейере. Я использовал Oozie для графиков импорта и экспорта данных, но теперь мне нужно также интегрировать R-скрипт…

hadoop cloudera data-pipeline

25 авг '16 в 18:42

1 ответ

Создайте общий / параметризованный триггер в фабрике данных Azure

Я хочу загрузить данные из помещения в лазурные капли. У меня есть данные о трех на исходных серверах. Проблема в том, что копирование данных должно выполняться в разное время для каждого источника. Пожалуйста, предложите способ сделать это.

azure triggers azure-data-factory azure-data-factory-2 data-pipeline

05 дек '18 в 16:15

1 ответ

Настроить линию данных для получения значений параметров из лямбды

У меня есть лямбда-функция, которая активирует линию данных: client.activate_pipeline( pipelineId='df-0680373LNPNFF73UDDD', parameterValues=[{'id':'myVariable','stringValue':'ok'}]) Как настроить конвейер данных для получения значения параметра при …

amazon-web-services amazon-data-pipeline data-pipeline

05 фев '19 в 07:24

1 ответ

Конвейер данных - выгрузка больших файлов из ответов API в AWS с последующим назначением на сервере SQL Server.

Я новичок в создании конвейеров данных, где дамп файлов в облаке - это один или несколько шагов в потоке данных. Наша цель - хранить большие, необработанные наборы данных из различных API в облаке, а затем извлекать только то, что нам нужно (сводные…

sql-server amazon-web-services amazon-s3 data-pipeline

05 фев '19 в 15:53

1 ответ

"Тайм-аут соединения (Тайм-аут соединения)" Ошибка для SQLActivity

У меня возникла ошибка тайм-аута соединения в моем задании конвейера данных для запуска простого сценария SQL. Скрипт настроен в моем S3. Сам конвейер данных находится в районе us-east-1. Моя база данных находится в нас-восток-2. Когда я впервые зап…

amazon-web-services amazon-ec2 amazon-rds amazon-data-pipeline data-pipeline

14 фев '18 в 04:35

1 ответ

Можно ли создать кластер EMR с автоматическим масштабированием с использованием конвейера данных

Я новичок в AWS. Я создал кластер EMR, используя политику автоматического масштабирования через консоль AWS. Я также создал конвейер данных, который может использовать этот кластер для выполнения действий. Я также могу динамически создавать кластер …

amazon-web-services amazon-emr amazon-data-pipeline data-pipeline

31 июл '17 в 10:07

1 ответ

Массовое добавление столбца TTL в таблицу DynamodB

У меня есть случай, когда мне нужно добавить столбец ttl в существующую таблицу. В настоящее время эта таблица содержит более 2 миллиардов записей. Есть ли какое-либо существующее решение, построенное вокруг того же самого? Или должен быть путь впер…

amazon-dynamodb amazon-emr emr amazon-data-pipeline data-pipeline

19 фев '18 в 22:15

4 ответа

Подача.npy (файлы numpy) в конвейер данных тензорного потока

Tensorflow, похоже, не хватает ридера для файлов.npy. Как я могу прочитать мои файлы данных в новом трубопроводе tenorflow.data.Dataset? Мои данные не помещаются в памяти. Каждый объект сохраняется в отдельном файле.npy. каждый файл содержит 2 разны…

numpy tensorflow dataset data-pipeline

20 фев '18 в 16:08

0 ответов

Как выполнить несколько атомарных операций на одном узле данных в конвейере данных AWS?

Я хочу запустить два "задания cron", которые: 1. Проверяют обновление в корзине S3 каждый час и обновляют в DynmoDB, 2. Проверяют новые записи в корзине S3 каждую неделю и создают запись в DynmoDB. Расскажите, пожалуйста, как выполнить несколько ато…

amazon-web-services aws-lambda amazon-data-pipeline data-pipeline aws-data-pipeline

15 июл '18 в 19:31

2 ответа

Луиджи не поднимает следующую задачу для выполнения, куча отложенных задач не осталось, никаких неудачных задач

Я запускаю большой рабочий процесс Luigi, который должен выполнить более ста задач. Рабочий процесс идет хорошо в течение достаточно долгого времени, но на одном этапе он приходит к моменту, когда имеется 15 ожидающих выполнения задач, и все остальн…

python worker luigi data-pipeline

01 фев '18 в 16:11

0 ответов

Конвейер данных для системного журнала / сетевого анализа данных

У меня нет опыта машинного обучения на отраслевом уровне, поэтому я ищу ваших экспертов здесь! Я работаю над задачей, в которой мне нужен конвейер данных для обнаружения аномалий в сетевых журналах или любых подобных данных. Я пытаюсь найти эффектив…

bigdata data-pipeline log-analysis

21 фев '18 в 04:07

1 ответ

В чем разница между задачей и работой в потоке воздуха

Там В базе метаданных воздушного потока, таблица с именем jobи там много записей. Я знаю разницу между DAGRun а также task, а какая разница между task а также job в потоке воздуха? Заранее спасибо.

airflow workflow data-pipeline

20 мар '18 в 07:23

0 ответов

Импорт модели из Python, которая использует конвейер данных (набор данных) в Tensoflow C++

Это не вопрос, а решение проблемы, с которой я столкнулся. например, у вас есть следующий код #placeholder handle = tf.placeholder(tf.string, shape=[], name="handle_plc") data_plc = tf.placeholder(tf.float32, [None] + list(data_shape[1:]), name="dat…

c++ tensorflow save builder data-pipeline

19 фев '19 в 18:17

0 ответов

Почему мой конвейер данных Cloudformation терпит неудачу на моем Ec2Resource?

Я пытаюсь запустить Data Pipeline внутри стека формирования облаков. Этот стек ссылается на экспорт другого стека, который содержит кластер Redshift. Когда я запускаю его, я получаю сообщение об ошибке "Ec2Instance", ошибки = внутренняя ошибка во вр…

aws-cloudformation amazon-data-pipeline data-pipeline

14 июл '17 в 18:56

1 ответ

Временные ряды для потоковых приложений

Мы разрабатываем приложение для конвейера данных, используя Kafka, Storm и Redis. События реального времени из разных систем будут опубликованы в Kafka, и шторм выполнит обработку событий на основе настроенных правил. Государство управляется в Redis…

redis apache-storm complex-event-processing data-pipeline data-lake

05 июл '17 в 11:30

0 ответов

Построение конвейера данных

Я хочу построить конвейер данных. Есть две части к этому 1) Получить данные 2) Анализировать данные Для получения данных у меня есть внешний API под названием EXT_API, который принимает параметр скажем id и возвращает ответ JSON с некоторыми свойств…

java apache-spark database-design nosql data-pipeline

20 ноя '18 в 08:55

0 ответов

Воздушный поток большой стол

Я установил тестовую установку воздушного потока некоторое время назад с одним тестовым DAG, который находится в состоянии паузы. Теперь, после того, как эта система работала в течение нескольких недель без особых усилий (помимо некоторых тестовых п…

python airflow pickle directed-acyclic-graphs data-pipeline

10 май '17 в 11:37

0 ответов

Импорт Dynamodb из s3 с использованием EMR

Я пытаюсь загрузить данные JSON из S3 Bucket в DynamodB с помощью EMR. Я успешно загрузил данные, но мой счетчик не совпадает без каких-либо ошибок. Почему это могло случиться?

php amazon-web-services emr data-pipeline

13 апр '17 в 13:42

3 ответа

Как получить доступ к ответу GET-запроса Airflow SimpleHttpOperator

Я изучаю Airflow и у меня простой вопрос. Ниже мой DAG называется dog_retriever import airflow from airflow import DAG from airflow.operators.http_operator import SimpleHttpOperator from airflow.operators.sensors import HttpSensor from datetime impo…

airflow apache-airflow data-pipeline

10 окт '17 в 21:39

1 ответ

Как мы можем предоставить количество основных экземпляров в работе AWS Data Pipeline

Требование: восстановить таблицу DynamoDB из S3 Backup. Мы создали задание Data Pipeline, а затем отредактировали раздел Resources в Architect Wizard. Мы поместили 20 экземпляров в подсчет базовых экземпляров, но после активации задания конвейера да…

amazon-web-services amazon-emr amazon-data-pipeline data-pipeline

24 фев '17 в 08:14