Описание тега aws-databricks

По вопросам использования унифицированной аналитической платформы Databricks в облаке AWS.
3 ответа

Не удается получить доступ к /dbfs/FileStore с помощью команд оболочки в среде выполнения databricks версии 7

Во время выполнения databricks версии 6.6 я могу успешно запустить команду оболочки, подобную следующей: %sh ls /dbfs/FileStore/tables Однако в среде выполнения версии 7 это больше не работает. Есть ли способ получить прямой доступ к /dbfs/FileStore…
27 авг '20 в 05:41
1 ответ

Databricks: разница между dbfs:/ vs file:/

Я пытаюсь понять, как Databricks хранит файлы, и я немного не уверен, в чем разница между dbfs: / и file: / (см. Изображение ниже) Из того, что я смог вывести отсюда, file: / кажется областью, куда загружаются внешние файлы, загруженные через curl /…
31 авг '20 в 11:41
1 ответ

Слишком много файлов в моем кластере Databricks Community, но где?

Я начал играть с потоковой передачей на своих сборщиках данных Community Edition, но после нескольких минут создания тестовых событий я столкнулся с некоторой проблемой. Я считаю, что это как-то связано с тем, что в процессе стриминга создаются врем…
22 авг '20 в 11:02
0 ответов

Пример кода SparkNLP загружается 900 МБ очень медленно на databrcks

Я пытаюсь запустить блокнот ipython о SparkNLP по адресу https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb Я использую его на базе данных с…
0 ответов

Запуск отдельных операторов Python с использованием блоков данных и воздушного потока apache

Я использую pyspark на блоках данных для запуска своих ETL. Я хотел бы использовать воздушный поток apache, чтобы я мог превратить свой ETL в несколько отдельных шагов (узлы, как в воздушном потоке), где весь DAG будет создавать мои окончательные да…
18 авг '20 в 17:51
2 ответа

ускорение сильно секционированного фрейма данных до s3 на блоках данных

Я веду записную книжку на Databricks, которая создает разделенные фреймы данных PySpark и загружает их в s3. Рассматриваемая таблица содержит ~5000 файлов и имеет общий размер ~5 ГБ (она должна быть разделена таким образом, чтобы Афина могла эффекти…
1 ответ

Получить имя класса работающего задания Databricks

Существует проект Apache Spark Scala (runnerProject), который использует другой проект в том же пакете (sourceProject). Цель исходного проекта - получить имя и версию выполняемого задания Databricks. Проблема со следующим методом является то, что, к…
08 сен '20 в 12:01
2 ответа

Локальный экземпляр Databricks для разработки

В настоящее время я работаю в небольшой команде, которая разрабатывает решение на основе Databricks. На данный момент мы достаточно малы, чтобы работать с облачными экземплярами Databricks. По мере роста группы это будет непрактично. Существует ли "…
11 сен '20 в 06:17
1 ответ

Как настроить spark.task.maxFailures на базе данных AWS?

Я хотел бы установить для spark.task.maxFailures значение больше 4. Как я могу установить это значение в среде выполнения Databricks 6.4? Когда я выполняю spark.conf.get("spark.task.maxFailures"), я получаю ошибку ниже java.util.NoSuchElementExcepti…
16 сен '20 в 13:08
1 ответ

В записной книжке Scala на Apache Spark Databricks как правильно привести массив к типу decimal(30,0)?

Я пытаюсь преобразовать массив как Decimal(30,0) для использования в динамическом выборе как: WHERE array_contains(myArrayUDF(), someTable.someColumn) Однако при использовании: val arrIds = someData.select("id").withColumn("id", …
1 ответ

Как получить доступ к общедоступному набору данных AWS с помощью Databrick?

Я новичок в сборщиках данных. Я ищу общедоступный набор данных больших данных для своего школьного проекта, потом я наткнулся на общедоступный набор данных AWS по этой ссылке: https://registry.opendata.aws/target/ Я использую Python на Databricks и …
0 ответов

Pyspark- Можно ли создать фрейм данных непосредственно из файла .tar.gz в Databricks?

У меня есть файл.tar.gz в ведре S3. Файлы.tar.gz содержат несколько файлов.tsv. Я хочу создать фрейм данных Spark (а не фрейм данных pandas) из одного из файлов.tsv в блоках данных, не распаковывая и не распаковывая его и не сохраняя во временном пу…
0 ответов

Подключение Databricks к Ebean

Я пытаюсь подключиться к кластеру Databricks с помощью EBEAN. Ниже приведено объявление свойства конфигурации сервера. val sc = ServerConfig().apply { loadFromProperties() addPackage("models") setAutoReadOnlyDataSource(true) isDefaultServe…
26 ноя '20 в 16:09
0 ответов

процесс предоставления доступа к Metastore для Databricks

Мы планируем внедрить централизованный механизм метастора в нашей среде. В этом случае Попытка понять архитектуру / процесс, за которым предоставляется доступ к метастору для Databricks. Не могли бы вы помочь мне получить информацию по этому поводу.
07 окт '20 в 18:57
0 ответов

Перемещение данных из неизменяемого сегмента s3 в дельта-формат на блоках данных

Я новичок в delta lake и пытаюсь преобразовать часто используемые файлы паркета, хранящиеся на S3, в delta. Наша проблема в том, что исходное ведро S3 доступно только для чтения. Мы загружаем это ведро инкрементными данными с каждой загрузкой. Мой в…
09 сен '20 в 08:44
1 ответ

Как получить доступ к ключу-значению из AWS Key Management Service в блоках данных

Я создаю решение на основе блоков данных AWS и хотел получить доступ к идентификатору пользователя и паролю RDS из AWS KMS. Кто-нибудь создал этот сценарий, пожалуйста, помогите.
14 сен '20 в 15:31
2 ответа

Клей для AWS: развертывание модели в среде AWS

В соответствии с нашей средой AWS у нас есть 2 разных типа SAG(группа сервисных аккаунтов) для хранения данных. Один SAG предназначен для общего хранилища, другой SAG - для защищенных данных, которые будут содержать только PII или ограниченные данны…
0 ответов

AWS S3 China не удается создать точку монтирования в Azure databricks

Я пытаюсь создать точку монтирования для ведер AWS S3 в США и Китае на базе данных Azure eastus2 Фрагмент: dbutils.fs.mount(s"s3n://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName") Для региона AWS S3 в США точка …
0 ответов

удалена корзина хранилища aws, используемая модулями данных для развертывания

В настройках хранилища AWS я случайно удалил корзину, используемую для развертывания. Невозможно создать новое развертывание с новым сегментом. Я попытался полностью удалить развертывание... но теперь он просит меня зарегистрироваться на https://dat…
22 ноя '20 в 14:58
0 ответов

Регистрация событий щелчка мыши в блоках данных

Я пытаюсь зафиксировать события щелчка мыши на географической карте в моем кластере данных, но не смог найти способ и пробовал различные библиотеки географических карт, такие как folium, matplotlib, ipyleaflet и т. Д. Я хотел бы знать, поддерживает …