Описание тега data-lake

Вопросы с тегом

0 ответов

Развертывание базы данных U-SQL через конвейеры Azure

Я пытаюсь развернуть проект базы данных U-SQL из конвейера Azure, используя эту ссылку https://docs.microsoft.com/en-us/azure/data-lake-analytics/data-lake-analytics-cicd-overview Он работал нормально (успешно выполнен) 2 месяца назад, когда он был …

azure u-sql data-lake

30 окт '18 в 07:00

1 ответ

Что такое хранилище данных и может ли оно применяться к сложным данным?

Я хочу определить хранилище данных с необходимой литературной ссылкой. Я нашел в википедии, что вики DW являются центральными хранилищами интегрированных данных из одного или нескольких разнородных источников. Они хранят текущие и исторические данны…

bigdata data-modeling data-warehouse data-lake

05 дек '18 в 14:17

2 ответа

Может ли хранилище данных включать озеро данных?

Я хочу понять хранилище данных и озеро данных более подробно. Мне кажется, есть другая информация к теме. Inmon определяет хранилище данных как предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных для п…

data-modeling data-warehouse data-lake

11 дек '18 в 15:41

0 ответов

Локальная отладка U-SQL с внешним источником данных

Мой U-SQL скрипт использует внешний источник данных для Azure SQL Database, Как я понимаю, мне нужно использовать локальную учетную запись ADLA для запуска и отладкиU-SQLскрипт с кодом позади локально. Если я запускаю его в Azure, он работает нормал…

azure azure-data-lake u-sql data-lake

30 авг '18 в 10:10

1 ответ

Сравнение больших данных и озер данных, различий и сходств

Может кто-нибудь сказать мне сходства и различия между большими данными и озерами данных. Не могу найти удовлетворительного ответа нигде.

data-science bigdata data-lake

03 янв '19 в 10:36

1 ответ

Как создать Datalake, используя Apache Kafka, Amazon Glue и Amazon S3?

Я хочу сохранить все данные из темы Кафки в Amazon S3. У меня есть кластер Kafka, который получает в одной теме 200000 сообщений в секунду, и каждое сообщение со значением имеет 50 полей (строки, метки времени, целые числа и числа с плавающей запято…

amazon-s3 apache-kafka aws-glue apache-kafka-connect data-lake

05 окт '18 в 09:49

0 ответов

Какой метод моделирования подходит для эффективного использования файла Parquet в хранилище данных?

У нас есть настройка хранилища объектов для озера данных. Я делаю некоторый анализ использования формата файла паркета. Это включает в себя подход моделирования данных при использовании файлов паркета. До сих пор я не могу сделать вывод. Может кто-н…

parquet data-modeling data-warehouse data-lake

12 дек '17 в 03:03

0 ответов

Прием пищи в реальном времени от Кассандры

Для одного из моих вариантов использования мне нужно в потоковом режиме вводить данные из кассандры в мой поток данных. Я изучал архитектуру Cassandra и обнаружил, что Cassandra хранит свои журналы в папке журнала коммитов. Я пытался читать эти журн…

database cassandra bigdata data-ingestion data-lake

29 янв '19 в 07:00

0 ответов

Как создать универсальный идентификатор клиента в Google Cloud Platform?

У меня было несколько быстрых вопросов относительно создания универсального идентификатора клиента (UCID) в Google Cloud Platform (GCP). Чтобы упростить это, я начну с того, что пока предоставлю некоторые общие сведения, контекст и усилия. ФОН НА UC…

firebase google-cloud-platform data-lake

14 ноя '18 в 17:45

0 ответов

Индексирование и навигация в метаданных S3

Я получаю важное количество файлов S3 CSV для каждого fo.csv S3 файл есть fo.metadata.txt файл с интересными метаданными, описывающими столбцы csv и дающий дополнительную информацию. Я ищу лучший способ навигации по метаданным всех CSV-файлов, чтобы…

amazon-s3 data-lake cloudera-sentry cloudera-director

06 окт '16 в 11:23

2 ответа

Powershell - рекурсивный в хранилище озера данных Azure

Кто-нибудь знает, как перечислить каждый файл в каталоге внутри хранилища озера данных и подкаталогов? по-видимому -recursive инструкция не работает как в обычной среде Мне нужно запустить этот сценарий в хранилище озера данных Azure (оно правильно …

azure powershell recursion azure-data-lake data-lake

22 дек '16 в 02:16

1 ответ

Что такое параметр IP доступа в шаблоне облачного формирования решения AWS Data Lake Solution?

Я новичок в AWS и пытаюсь развернуть решение для озера модельных данных на AWS, выполнив следующие действия: https://docs.aws.amazon.com/solutions/latest/data-lake-solution/deployment.html Чтобы развернуть шаблон формирования облака, он запрашивает …

amazon-web-services aws-cloudformation data-lake

01 май '18 в 07:48

1 ответ

Предоставить кластеру HDInsight доступ ко всем папкам учетной записи ADL Storage

Я пытаюсь добавить учетную запись ADL Storage (ADLS) в мой кластер HDInsight. 1) Я создал участника службы (SP) с помощью Azure Active Directory (AAD) 2) Я предоставил доступ к этому SP в качестве участника учетной записи ADLS 3) Я сейчас пытаюсь ис…

azure azure-data-lake hdinsight data-lake

10 дек '17 в 14:22

1 ответ

Как выполнить задание U-SQL с помощью кода из.NET SDK

У меня есть задание U-SQL, которое использует собственные экстракторы в коде позади. И мне нужно запустить его по требованию из кода C#. Я нашел способ отправить работу, передав сценарий как строку. Можно ли как-нибудь выполнить скрипт с пользовател…

c# .net azure-data-lake u-sql data-lake

05 сен '18 в 07:13

3 ответа

Использование кросс-аккаунта в озере данных AWS S3

У нас есть следующий сценарий: Учетная запись A AWS (приложение) записывает данные из приложения в корзину S3, принадлежащую учетной записи B (озеро данных). Аналитики в учетной записи C (отчетность) хотят обрабатывать данные и создавать на их основ…

amazon-web-services amazon-s3 data-lake

12 мар '18 в 11:40

0 ответов

Инкрементная загрузка данных в neo4j из EDL или Oracle

У меня есть запрос для загрузки данных в neo4j, который является инкрементными данными, у меня есть данные, присутствующие в EDL или Oracle. Он содержит транзакционные данные и, следовательно, мне нужно постоянно обновлять базу данных neo4j. Нужна в…

neo4j etl integration data-lake

23 авг '18 в 13:34

1 ответ

AWS Data Lake Ingest

Нужно ли вам использовать Excel и другие проприетарные форматы, используя клей, или позволить клею работать, сканировать ваше хранилище s3, чтобы использовать эти форматы данных в вашем озере данных? Я ознакомился с документом " Основание озера данн…

excel amazon-web-services amazon-s3 amazon-athena data-lake

21 сен '17 в 19:01

1 ответ

Резервное копирование Data Lake Store

Я работаю над стратегией резервного копирования для Data Lake Store (DLS). Мой план заключается в создании двух учетных записей DLS и копировании данных между ними. Я оценил несколько подходов для достижения этой цели, но ни один из них не удовлетво…

azure hadoop azure-data-lake hdinsight data-lake

03 апр '18 в 10:55

0 ответов

Совет Datalake / хранилище данных BigQuery setup

Прежде всего, заранее извиняюсь за длинную историю и иногда использую неправильную терминологию. Надеемся, что кто-то может посоветовать нам, как оптимально внедрить BigQuery в нашу организацию. Текущая настройка На данный момент у нас есть хранилищ…

google-cloud-platform google-bigquery data-warehouse data-lake

09 янв '19 в 11:39

1 ответ

Невозможно проанализировать список блоков Json в U-SQL

У меня есть файл со списком блоков JSON, и я застрял с обработкой / чтением их в U-Sql и записью в текстовый файл. { "id": "0001", "type": "donut", "name": "Cake", "ppu": 0.55, "batters": { "batter": [ { "id": "1001", "type": "Regular" }, { "id": "1…

azure azure-data-lake u-sql data-lake

21 дек '18 в 07:05