Можно ли объединить две разные утилиты базы данных, такие как быстрый экспорт Teradata, в GPloader Greenplum?

Обычно я использую соединение JDBC с некоторым инструментом ETL для перемещения данных из одной базы данных (например, Teradata) в другую базу данных (например, Greenplum).

Однако обе эти базы данных поставляются со встроенными утилитами, которые могут загружать / экспортировать огромные объемы данных очень быстро, намного быстрее, чем JDBC!. Но, насколько мне известно, недостатком является то, что он может делать это только из файла.

Итак, если я хочу использовать их, я должен следовать за процессом как

Teradata ---(быстрый экспорт)---> Файл ---(Gploader)---> Greenplum

Мне интересно, можно ли пропустить часть файла и объединить две утилиты.

Teradata ---(FastExport & Gploader) -> Greenplum.

Таким образом, я могу очень быстро передавать огромные объемы данных!

1 ответ

Да, вы, безусловно, можете. Greenplum поддерживает все виды внешних таблиц. Одним из решений является использование внешней таблицы, которая выполняет команду. Эта команда может быть Java-программой, которая подключается к Teradata для получения данных и использует опцию FastExport.

Я написал инструмент "gplink", чтобы сделать именно это. Он автоматизирует создание внешних таблиц Greenplum для источников JDBC.

Github: https://github.com/pivotalguru/gplink

Пример подключения к Teradata: https://github.com/pivotalguru/gplink/blob/master/connections/teradata.properties

И мой блог: http://www.pivotalguru.com/?page_id=982

Другие вопросы по тегам