Как я могу увидеть метаданные, линию данных, хранящихся в красном смещении AWS?

Я использую такие решения, как Cloudera Navigator, Atlas и Wherehows

чтобы получить метаданные и происхождение Hadoop, HDFS, HIVE, SQOOP, MAPREDUCE.

Теперь у нас есть хранилище данных и в красном смещении AWS. Есть ли способ извлечь метаданные или происхождение или обе информации из красного смещения.

Пока я ничего не нашел по этому вопросу.

Есть ли способ интегрировать то же самое с каким-либо образом в качестве решения для обхода?

Я нашел только один пост, который дает некоторую информацию о том, как получить некоторую информацию из красного смещения, предполагая, что это будет похоже на postgresql. Я уверен, что кто-то написал бы какое-нибудь решение этой проблемы с открытым исходным кодом. Или это просто вопрос написания простого скрипта для извлечения этой информации? Я ищу решение на уровне предприятия. Я надеюсь, что кто-то укажет мне правильное направление.

2 ответа

Ник, можешь рассказать о своей логике в Redshift? Как было сказано, Redshift - это просто хранилище данных, и оно зависит от того, как вы перемещаете в него свои данные. Какой язык вы используете для реализации преобразований?

Вы можете получить доступ к метаданным, запросив системные таблицы в Redshift:

https://docs.aws.amazon.com/redshift/latest/dg/cm_chap_system-tables.html

Системные таблицы находятся на ведущем узле в каждом кластере (см. Это руководство по архитектуре Redshift, которую я написал)

Redshift удаляет содержимое системных таблиц по мере поступления, поэтому вам необходимо хранить эти данные в своем кластере или другом отдельном кластере, чтобы получить историю. Имея данные в системных таблицах, вы получаете базовую информацию о ваших запросах и таблицах, к которым они относятся.

Вы можете поместить панель данных, такую ​​как Kibana или Periscope Data, поверх этих данных, чтобы визуализировать их. Плед написал, как они создали собственное решение для мониторинга, которое имеет некоторую информацию о происхождении данных:

https://blog.plaid.com/managing-your-amazon-redshift-performance-how-plaid-uses-periscope-data/

Но чтобы получить истинное происхождение данных, вам нужно понять, как запросы связаны с вашими рабочими процессами, то есть для DAG Airflow. Чтобы получить эту информацию, вам нужно "пометить" ваши запросы, чтобы вы могли отслеживать их в контексте преобразований / рабочих процессов вместо просмотра отдельного запроса.

Это то, что мы встроили в наш продукт, и намекаем, что это коммерческое решение:

https://www.intermix.io/blog/announcing-query-insights/

В отличие от необработанных журналов из системных таблиц, мы даем вам контекст того, какие приложения / рабочие процессы вызывают запросы, какие пользователи их запускают и какие таблицы они касаются.

  • Lars

Каталог данных AWS Glue является полностью управляемой службой управления метаданными. Он имеет сканер AWS Glue, который автоматически сканирует ваш источник (для вас его красное смещение) и создает централизованное хранилище метаданных, к которому могут обращаться другие службы AWS.

См:

https://docs.aws.amazon.com/glue/latest/dg/components-overview.html

https://aws.amazon.com/glue/

Другие вопросы по тегам