Описание тега data-integration
Data integration is the combination of technical and business processes used to combine data from disparate sources into meaningful and valuable information. A complete data integration solution encompasses discovery, cleansing, monitoring, transforming and delivery of data from a variety of sources.
1
ответ
JSONpath Stopper
Существует родительское поле с именем "цена", но есть также глубоко внедренное дочернее поле, также называемое "цена" (первое, вероятно, MSRP). Как мне получить JSONpath для анализа только родительских? { "name":"Toaster", "price":"19.99", "store":{…
07 авг '14 в 02:03
2
ответа
Как проводить очистку данных с помощью Spark-Python на основе HDFS
В настоящее время я концентрируюсь на предварительной обработке данных в проекте Data Mining. Если быть точным, я хочу выполнить очистку данных с помощью PySpark на основе HDFS. Я очень новичок в этих вещах, поэтому я хочу спросить, как это сделать?…
19 фев '17 в 13:09
1
ответ
Какова логика минимального 15-минутного интервала в планировании AWS DataPipeline?
Недавно меня попросили создать механизм для получения данных с нашего RDS MySQL в режиме, близком к реальному времени, то есть в течение 5 секунд. до 5 минут Прочитав Lambda, Flydata и Data Pipelines, я выбрал AWS Data Pipeline, так как многие форум…
29 июл '16 в 12:09
1
ответ
Выходные данные Excel в Пентахо за прошлый месяц
Я работаю с PDI 4.1. Я создал преобразования и задания, и у меня есть файл Excel с данными из базы данных. Столбцы в моем файле Excel name, date а также hourи мне нужно привести данные за прошлый месяц. Могу ли я сделать что-то подобное? Name_july_h…
05 сен '12 в 15:23
1
ответ
Список поддерживаемых форматов ввода / вывода Pentaho Integration (Kettle)
Мне интересно, где я могу найти официальный список поддерживаемых форматов ввода / вывода для продукта интеграции данных Pentaho.
13 июн '12 в 18:22
1
ответ
Как вы решаете свой источник "Pre-Etl" для решения задач картографирования?
Использование электронных таблиц определенно не является авторитетным: сопоставления источников меняются по мере разработки и тестирования заданий ETL. Электронная таблица, которая когда-то функционировала как единый или авторитетный каталог всех ис…
09 апр '13 в 20:52
3
ответа
Как я могу объединить два файла в интеграции данных Pentaho (чайник)
Я работаю с Pentaho Data Integration (Kettle) и у меня есть вопрос. У меня есть два входных файла file1.txt а также file2.txt с тем же заголовком: file1.txt NAME;AGE alberto;22 angela;22 madelaine;23 file2.txt NAME;AGE carlos;56 fernando;30 ana;16 и…
07 апр '14 в 08:46
0
ответов
Как назвать выходные данные задания Kafka-HDFS-Ingestion, содержащие имена тем Apache Kafka в Apache Gobblin?
Я протестировал Gobblin с Hadoop и Apache Kafka, используя Kafka-HDFS-Ingestion Job. Пример доступен здесь. В Кафке у меня есть 2 темы, и я могу легко помещать сообщения от Кафки в HDFS. bin/kafka-topics.sh --list --zookeeper localhost:2181 Action S…
19 июн '18 в 12:44
1
ответ
Невозможно добавить в базу данных mysql с помощью Talend Job
При добавлении данных в базу данных MySQL с помощью Job, я получаю следующие ошибки * Начало работы fillraw в 16:34 10/03/2016. [статистика] подключение к сокету через порт 3955 [статистика] подключение Усечение данных: значение за пределами диапазо…
10 мар '16 в 11:08
1
ответ
Ошибка типа бита ввода / вывода интеграции Pentaho
Я использую Pentaho Data Integration для многочисленных проектов на работе. Мы преимущественно используем Postgres для нашей базы данных. В одной из наших старых таблиц есть два столбца, для которых установлен тип bit(1) для хранения 0 для false и 1…
20 окт '15 в 16:06
1
ответ
Каковы общие процедуры для решения задач интеграции данных в реальном проекте больших данных на основе HDFS?
В настоящее время я работаю над проектом интеллектуального анализа данных, который обрабатывает данные, хранящиеся на hdfs, Первым делом для этого проекта является интеграция данных из разных баз данных или таблиц в единые таблицы, хранящиеся в hdfs…
12 мар '17 в 15:54
1
ответ
Как я могу интегрировать данные на регулярной основе между 2 различными серверами MySQL?
В настоящее время у меня есть 2 MySQL Serve, работающие на разных машинах. Одна из них - это промежуточная среда (A), а другая - производственная среда (B). Что мне нужно сделать, это взять данные из (A) и обновить / вставить в B в соответствии с ус…
27 авг '13 в 20:14
1
ответ
Подход к объединению двух источников данных с разными данными об одних и тех же объектах
Рассмотрим сценарий, в котором у меня есть данные об одном и том же объекте из двух разных источников. В качестве примера камеры Nikon D3200, Nikon упоминает размеры как 5.0 in. (125 mm) x 3.8 in. (96 mm) x 3.1 in. (76.5 mm) где, как на сайте Amazon…
14 ноя '13 в 19:39
2
ответа
Как вычесть или удалить содержимое переменной контекста из строки в Talend
В talend Open Studio, если у меня есть контекстная переменная, которая указывает на каталог C:/MyData как я могу вычесть это из строки каталога, например C:/MyData/Folder/Sub/ так что я в конечном итоге /Folder/Sub/ для дополнительной обработки Я пы…
10 апр '17 в 15:41
1
ответ
Петли в Пентахо - это преобразование цикл?
Зацикливается ли следующее преобразование в каждой строке поля приложения? Также есть способ циклического просмотра и вывода каждой отдельной строки в свой собственный текстовый файл или файл Excel (предпочтительно текстовый файл). На данный момент …
21 фев '17 в 16:25
2
ответа
Создание пакета служб SSIS для интеграции баз данных MSSQL и MySql
Я пытаюсь создать пакет служб SSIS для интеграции между MSSQL и MYSQL. У меня нет предыдущего опыта работы со ставками или службами SSIS и следования приведенным здесь инструкциям. Я добавил компоненты "Источник", "Поиск", "Условное разделение", "На…
14 янв '11 в 07:36
2
ответа
Pentaho Kettle - Как произвести обновление запроса на основе набора результатов?
Я придумала генератор запросов вставки из ложки Пентахо, который записывает входные данные в текстовый файл в виде набора операторов SQL. Интересно, есть ли какой-нибудь метод, который можно использовать аналогично этому, но генерировать запрос на о…
04 ноя '14 в 10:50
2
ответа
Talend: обрабатывать порядок столбцов
Я проектирую работу в Talend (ETL Tool). Входящие данные могут иметь столбцы в другом порядке. Как мне справиться с этим? Я хочу сопоставить их со статической целью (для этого я использую tMap). Также мне нужно позаботиться о количестве столбцов (он…
28 июл '14 в 11:18
1
ответ
Как суммировать вставленные строки в компоненте tjavaflex при итерации между входами?
В Talend (открытая студия для интеграции данных) 7.0.1 (и более ранние версии). Я использую tJavaFlex, чтобы регистрировать, сколько строк было вставлено в базу данных. Подробное задание Talend: 1. Разделите большой файл на несколько меньших. 2. Пер…
31 янв '19 в 08:06
0
ответов
Есть ли способ конвертировать без xlsm файла в xlsx файл в Talend?
Есть ли способ конвертировать без xlsm файла в xlsx файл в Talend? Используя библиотеки POI, у меня есть идея, что это можно сделать, и после разработки этот файл jar можно будет запустить через Talend. Но при использовании библиотеки POI работа, ко…
27 янв '19 в 02:37