Можно ли объединить две разные утилиты базы данных, такие как быстрый экспорт Teradata, в GPloader Greenplum?
Обычно я использую соединение JDBC с некоторым инструментом ETL для перемещения данных из одной базы данных (например, Teradata) в другую базу данных (например, Greenplum).
Однако обе эти базы данных поставляются со встроенными утилитами, которые могут загружать / экспортировать огромные объемы данных очень быстро, намного быстрее, чем JDBC!. Но, насколько мне известно, недостатком является то, что он может делать это только из файла.
Итак, если я хочу использовать их, я должен следовать за процессом как
Teradata ---(быстрый экспорт)---> Файл ---(Gploader)---> Greenplum
Мне интересно, можно ли пропустить часть файла и объединить две утилиты.
Teradata ---(FastExport & Gploader) -> Greenplum.
Таким образом, я могу очень быстро передавать огромные объемы данных!
1 ответ
Да, вы, безусловно, можете. Greenplum поддерживает все виды внешних таблиц. Одним из решений является использование внешней таблицы, которая выполняет команду. Эта команда может быть Java-программой, которая подключается к Teradata для получения данных и использует опцию FastExport.
Я написал инструмент "gplink", чтобы сделать именно это. Он автоматизирует создание внешних таблиц Greenplum для источников JDBC.
Github: https://github.com/pivotalguru/gplink
Пример подключения к Teradata: https://github.com/pivotalguru/gplink/blob/master/connections/teradata.properties
И мой блог: http://www.pivotalguru.com/?page_id=982