Как я могу увидеть метаданные, линию данных, хранящихся в красном смещении AWS?
Я использую такие решения, как Cloudera Navigator, Atlas и Wherehows
чтобы получить метаданные и происхождение Hadoop, HDFS, HIVE, SQOOP, MAPREDUCE.
Теперь у нас есть хранилище данных и в красном смещении AWS. Есть ли способ извлечь метаданные или происхождение или обе информации из красного смещения.
Пока я ничего не нашел по этому вопросу.
Есть ли способ интегрировать то же самое с каким-либо образом в качестве решения для обхода?
Я нашел только один пост, который дает некоторую информацию о том, как получить некоторую информацию из красного смещения, предполагая, что это будет похоже на postgresql. Я уверен, что кто-то написал бы какое-нибудь решение этой проблемы с открытым исходным кодом. Или это просто вопрос написания простого скрипта для извлечения этой информации? Я ищу решение на уровне предприятия. Я надеюсь, что кто-то укажет мне правильное направление.
2 ответа
Ник, можешь рассказать о своей логике в Redshift? Как было сказано, Redshift - это просто хранилище данных, и оно зависит от того, как вы перемещаете в него свои данные. Какой язык вы используете для реализации преобразований?
Вы можете получить доступ к метаданным, запросив системные таблицы в Redshift:
https://docs.aws.amazon.com/redshift/latest/dg/cm_chap_system-tables.html
Системные таблицы находятся на ведущем узле в каждом кластере (см. Это руководство по архитектуре Redshift, которую я написал)
Redshift удаляет содержимое системных таблиц по мере поступления, поэтому вам необходимо хранить эти данные в своем кластере или другом отдельном кластере, чтобы получить историю. Имея данные в системных таблицах, вы получаете базовую информацию о ваших запросах и таблицах, к которым они относятся.
Вы можете поместить панель данных, такую как Kibana или Periscope Data, поверх этих данных, чтобы визуализировать их. Плед написал, как они создали собственное решение для мониторинга, которое имеет некоторую информацию о происхождении данных:
https://blog.plaid.com/managing-your-amazon-redshift-performance-how-plaid-uses-periscope-data/
Но чтобы получить истинное происхождение данных, вам нужно понять, как запросы связаны с вашими рабочими процессами, то есть для DAG Airflow. Чтобы получить эту информацию, вам нужно "пометить" ваши запросы, чтобы вы могли отслеживать их в контексте преобразований / рабочих процессов вместо просмотра отдельного запроса.
Это то, что мы встроили в наш продукт, и намекаем, что это коммерческое решение:
https://www.intermix.io/blog/announcing-query-insights/
В отличие от необработанных журналов из системных таблиц, мы даем вам контекст того, какие приложения / рабочие процессы вызывают запросы, какие пользователи их запускают и какие таблицы они касаются.
- Lars
Каталог данных AWS Glue является полностью управляемой службой управления метаданными. Он имеет сканер AWS Glue, который автоматически сканирует ваш источник (для вас его красное смещение) и создает централизованное хранилище метаданных, к которому могут обращаться другие службы AWS.
См:
https://docs.aws.amazon.com/glue/latest/dg/components-overview.html