Описание тега data-pipeline
1
ответ
Различные инструменты, доступные для создания конвейеров данных
Мне нужно создать конвейеры данных в Hadoop. У меня есть импорт, экспорт, сценарии для очистки данных, и мне нужно настроить их в конвейере. Я использовал Oozie для графиков импорта и экспорта данных, но теперь мне нужно также интегрировать R-скрипт…
25 авг '16 в 18:42
1
ответ
Создайте общий / параметризованный триггер в фабрике данных Azure
Я хочу загрузить данные из помещения в лазурные капли. У меня есть данные о трех на исходных серверах. Проблема в том, что копирование данных должно выполняться в разное время для каждого источника. Пожалуйста, предложите способ сделать это.
05 дек '18 в 16:15
1
ответ
Настроить линию данных для получения значений параметров из лямбды
У меня есть лямбда-функция, которая активирует линию данных: client.activate_pipeline( pipelineId='df-0680373LNPNFF73UDDD', parameterValues=[{'id':'myVariable','stringValue':'ok'}]) Как настроить конвейер данных для получения значения параметра при …
05 фев '19 в 07:24
1
ответ
Конвейер данных - выгрузка больших файлов из ответов API в AWS с последующим назначением на сервере SQL Server.
Я новичок в создании конвейеров данных, где дамп файлов в облаке - это один или несколько шагов в потоке данных. Наша цель - хранить большие, необработанные наборы данных из различных API в облаке, а затем извлекать только то, что нам нужно (сводные…
05 фев '19 в 15:53
1
ответ
"Тайм-аут соединения (Тайм-аут соединения)" Ошибка для SQLActivity
У меня возникла ошибка тайм-аута соединения в моем задании конвейера данных для запуска простого сценария SQL. Скрипт настроен в моем S3. Сам конвейер данных находится в районе us-east-1. Моя база данных находится в нас-восток-2. Когда я впервые зап…
14 фев '18 в 04:35
1
ответ
Можно ли создать кластер EMR с автоматическим масштабированием с использованием конвейера данных
Я новичок в AWS. Я создал кластер EMR, используя политику автоматического масштабирования через консоль AWS. Я также создал конвейер данных, который может использовать этот кластер для выполнения действий. Я также могу динамически создавать кластер …
31 июл '17 в 10:07
1
ответ
Массовое добавление столбца TTL в таблицу DynamodB
У меня есть случай, когда мне нужно добавить столбец ttl в существующую таблицу. В настоящее время эта таблица содержит более 2 миллиардов записей. Есть ли какое-либо существующее решение, построенное вокруг того же самого? Или должен быть путь впер…
19 фев '18 в 22:15
4
ответа
Подача.npy (файлы numpy) в конвейер данных тензорного потока
Tensorflow, похоже, не хватает ридера для файлов.npy. Как я могу прочитать мои файлы данных в новом трубопроводе tenorflow.data.Dataset? Мои данные не помещаются в памяти. Каждый объект сохраняется в отдельном файле.npy. каждый файл содержит 2 разны…
20 фев '18 в 16:08
0
ответов
Как выполнить несколько атомарных операций на одном узле данных в конвейере данных AWS?
Я хочу запустить два "задания cron", которые: 1. Проверяют обновление в корзине S3 каждый час и обновляют в DynmoDB, 2. Проверяют новые записи в корзине S3 каждую неделю и создают запись в DynmoDB. Расскажите, пожалуйста, как выполнить несколько ато…
15 июл '18 в 19:31
2
ответа
Луиджи не поднимает следующую задачу для выполнения, куча отложенных задач не осталось, никаких неудачных задач
Я запускаю большой рабочий процесс Luigi, который должен выполнить более ста задач. Рабочий процесс идет хорошо в течение достаточно долгого времени, но на одном этапе он приходит к моменту, когда имеется 15 ожидающих выполнения задач, и все остальн…
01 фев '18 в 16:11
0
ответов
Конвейер данных для системного журнала / сетевого анализа данных
У меня нет опыта машинного обучения на отраслевом уровне, поэтому я ищу ваших экспертов здесь! Я работаю над задачей, в которой мне нужен конвейер данных для обнаружения аномалий в сетевых журналах или любых подобных данных. Я пытаюсь найти эффектив…
21 фев '18 в 04:07
1
ответ
В чем разница между задачей и работой в потоке воздуха
Там В базе метаданных воздушного потока, таблица с именем jobи там много записей. Я знаю разницу между DAGRun а также task, а какая разница между task а также job в потоке воздуха? Заранее спасибо.
20 мар '18 в 07:23
0
ответов
Импорт модели из Python, которая использует конвейер данных (набор данных) в Tensoflow C++
Это не вопрос, а решение проблемы, с которой я столкнулся. например, у вас есть следующий код #placeholder handle = tf.placeholder(tf.string, shape=[], name="handle_plc") data_plc = tf.placeholder(tf.float32, [None] + list(data_shape[1:]), name="dat…
19 фев '19 в 18:17
0
ответов
Почему мой конвейер данных Cloudformation терпит неудачу на моем Ec2Resource?
Я пытаюсь запустить Data Pipeline внутри стека формирования облаков. Этот стек ссылается на экспорт другого стека, который содержит кластер Redshift. Когда я запускаю его, я получаю сообщение об ошибке "Ec2Instance", ошибки = внутренняя ошибка во вр…
14 июл '17 в 18:56
1
ответ
Временные ряды для потоковых приложений
Мы разрабатываем приложение для конвейера данных, используя Kafka, Storm и Redis. События реального времени из разных систем будут опубликованы в Kafka, и шторм выполнит обработку событий на основе настроенных правил. Государство управляется в Redis…
05 июл '17 в 11:30
0
ответов
Построение конвейера данных
Я хочу построить конвейер данных. Есть две части к этому 1) Получить данные 2) Анализировать данные Для получения данных у меня есть внешний API под названием EXT_API, который принимает параметр скажем id и возвращает ответ JSON с некоторыми свойств…
20 ноя '18 в 08:55
0
ответов
Воздушный поток большой стол
Я установил тестовую установку воздушного потока некоторое время назад с одним тестовым DAG, который находится в состоянии паузы. Теперь, после того, как эта система работала в течение нескольких недель без особых усилий (помимо некоторых тестовых п…
10 май '17 в 11:37
0
ответов
Импорт Dynamodb из s3 с использованием EMR
Я пытаюсь загрузить данные JSON из S3 Bucket в DynamodB с помощью EMR. Я успешно загрузил данные, но мой счетчик не совпадает без каких-либо ошибок. Почему это могло случиться?
13 апр '17 в 13:42
3
ответа
Как получить доступ к ответу GET-запроса Airflow SimpleHttpOperator
Я изучаю Airflow и у меня простой вопрос. Ниже мой DAG называется dog_retriever import airflow from airflow import DAG from airflow.operators.http_operator import SimpleHttpOperator from airflow.operators.sensors import HttpSensor from datetime impo…
10 окт '17 в 21:39
1
ответ
Как мы можем предоставить количество основных экземпляров в работе AWS Data Pipeline
Требование: восстановить таблицу DynamoDB из S3 Backup. Мы создали задание Data Pipeline, а затем отредактировали раздел Resources в Architect Wizard. Мы поместили 20 экземпляров в подсчет базовых экземпляров, но после активации задания конвейера да…
24 фев '17 в 08:14