Описание тега aws-databricks

Описание тега Вопросы с тегом

По вопросам использования унифицированной аналитической платформы Databricks в облаке AWS.

3 ответа

Не удается получить доступ к /dbfs/FileStore с помощью команд оболочки в среде выполнения databricks версии 7

Во время выполнения databricks версии 6.6 я могу успешно запустить команду оболочки, подобную следующей: %sh ls /dbfs/FileStore/tables Однако в среде выполнения версии 7 это больше не работает. Есть ли способ получить прямой доступ к /dbfs/FileStore…

databricks aws-databricks

27 авг '20 в 05:41

1 ответ

Databricks: разница между dbfs:/ vs file:/

Я пытаюсь понять, как Databricks хранит файлы, и я немного не уверен, в чем разница между dbfs: / и file: / (см. Изображение ниже) Из того, что я смог вывести отсюда, file: / кажется областью, куда загружаются внешние файлы, загруженные через curl /…

databricks aws-databricks

31 авг '20 в 11:41

1 ответ

Слишком много файлов в моем кластере Databricks Community, но где?

Я начал играть с потоковой передачей на своих сборщиках данных Community Edition, но после нескольких минут создания тестовых событий я столкнулся с некоторой проблемой. Я считаю, что это как-то связано с тем, что в процессе стриминга создаются врем…

databricks streaming aws-databricks

22 авг '20 в 11:02

0 ответов

Пример кода SparkNLP загружается 900 МБ очень медленно на databrcks

Я пытаюсь запустить блокнот ipython о SparkNLP по адресу https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb Я использую его на базе данных с…

apache-spark nlp databricks aws-databricks johnsnowlabs-spark-nlp

04 сен '20 в 04:17

0 ответов

Запуск отдельных операторов Python с использованием блоков данных и воздушного потока apache

Я использую pyspark на блоках данных для запуска своих ETL. Я хотел бы использовать воздушный поток apache, чтобы я мог превратить свой ETL в несколько отдельных шагов (узлы, как в воздушном потоке), где весь DAG будет создавать мои окончательные да…

pyspark airflow databricks aws-databricks

18 авг '20 в 17:51

2 ответа

ускорение сильно секционированного фрейма данных до s3 на блоках данных

Я веду записную книжку на Databricks, которая создает разделенные фреймы данных PySpark и загружает их в s3. Рассматриваемая таблица содержит ~5000 файлов и имеет общий размер ~5 ГБ (она должна быть разделена таким образом, чтобы Афина могла эффекти…

python amazon-s3 pyspark databricks aws-databricks

24 авг '20 в 17:56

1 ответ

Получить имя класса работающего задания Databricks

Существует проект Apache Spark Scala (runnerProject), который использует другой проект в том же пакете (sourceProject). Цель исходного проекта - получить имя и версию выполняемого задания Databricks. Проблема со следующим методом является то, что, к…

scala apache-spark databricks aws-databricks

08 сен '20 в 12:01

2 ответа

Локальный экземпляр Databricks для разработки

В настоящее время я работаю в небольшой команде, которая разрабатывает решение на основе Databricks. На данный момент мы достаточно малы, чтобы работать с облачными экземплярами Databricks. По мере роста группы это будет непрактично. Существует ли "…

databricks azure-databricks aws-databricks

11 сен '20 в 06:17

1 ответ

Как настроить spark.task.maxFailures на базе данных AWS?

Я хотел бы установить для spark.task.maxFailures значение больше 4. Как я могу установить это значение в среде выполнения Databricks 6.4? Когда я выполняю spark.conf.get("spark.task.maxFailures"), я получаю ошибку ниже java.util.NoSuchElementExcepti…

apache-spark databricks aws-databricks

16 сен '20 в 13:08

1 ответ

В записной книжке Scala на Apache Spark Databricks как правильно привести массив к типу decimal(30,0)?

Я пытаюсь преобразовать массив как Decimal(30,0) для использования в динамическом выборе как: WHERE array_contains(myArrayUDF(), someTable.someColumn) Однако при использовании: val arrIds = someData.select("id").withColumn("id", …

scala apache-spark apache-spark-sql databricks aws-databricks

02 ноя '20 в 15:39

1 ответ

Как получить доступ к общедоступному набору данных AWS с помощью Databrick?

Я новичок в сборщиках данных. Я ищу общедоступный набор данных больших данных для своего школьного проекта, потом я наткнулся на общедоступный набор данных AWS по этой ссылке: https://registry.opendata.aws/target/ Я использую Python на Databricks и …

apache-spark dataset databricks aws-databricks

11 окт '20 в 22:05

0 ответов

Pyspark- Можно ли создать фрейм данных непосредственно из файла .tar.gz в Databricks?

У меня есть файл.tar.gz в ведре S3. Файлы.tar.gz содержат несколько файлов.tsv. Я хочу создать фрейм данных Spark (а не фрейм данных pandas) из одного из файлов.tsv в блоках данных, не распаковывая и не распаковывая его и не сохраняя во временном пу…

amazon-web-services amazon-s3 pyspark databricks aws-databricks

10 сен '20 в 20:22

0 ответов

Подключение Databricks к Ebean

Я пытаюсь подключиться к кластеру Databricks с помощью EBEAN. Ниже приведено объявление свойства конфигурации сервера. val sc = ServerConfig().apply { loadFromProperties() addPackage("models") setAutoReadOnlyDataSource(true) isDefaultServe…

jdbc databricks ebean aws-databricks simba

26 ноя '20 в 16:09

0 ответов

процесс предоставления доступа к Metastore для Databricks

Мы планируем внедрить централизованный механизм метастора в нашей среде. В этом случае Попытка понять архитектуру / процесс, за которым предоставляется доступ к метастору для Databricks. Не могли бы вы помочь мне получить информацию по этому поводу.

databricks aws-databricks

07 окт '20 в 18:57

0 ответов

Перемещение данных из неизменяемого сегмента s3 в дельта-формат на блоках данных

Я новичок в delta lake и пытаюсь преобразовать часто используемые файлы паркета, хранящиеся на S3, в delta. Наша проблема в том, что исходное ведро S3 доступно только для чтения. Мы загружаем это ведро инкрементными данными с каждой загрузкой. Мой в…

amazon-s3 delta aws-databricks

09 сен '20 в 08:44

1 ответ

Как получить доступ к ключу-значению из AWS Key Management Service в блоках данных

Я создаю решение на основе блоков данных AWS и хотел получить доступ к идентификатору пользователя и паролю RDS из AWS KMS. Кто-нибудь создал этот сценарий, пожалуйста, помогите.

aws-kms aws-databricks key-management

14 сен '20 в 15:31

2 ответа

Клей для AWS: развертывание модели в среде AWS

В соответствии с нашей средой AWS у нас есть 2 разных типа SAG(группа сервисных аккаунтов) для хранения данных. Один SAG предназначен для общего хранилища, другой SAG - для защищенных данных, которые будут содержать только PII или ограниченные данны…

databricks metadata aws-glue aws-glue-spark aws-databricks

06 окт '20 в 01:27

0 ответов

AWS S3 China не удается создать точку монтирования в Azure databricks

Я пытаюсь создать точку монтирования для ведер AWS S3 в США и Китае на базе данных Azure eastus2 Фрагмент: dbutils.fs.mount(s"s3n://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName") Для региона AWS S3 в США точка …

azure amazon-s3 azure-databricks aws-databricks

22 окт '20 в 16:41

0 ответов

удалена корзина хранилища aws, используемая модулями данных для развертывания

В настройках хранилища AWS я случайно удалил корзину, используемую для развертывания. Невозможно создать новое развертывание с новым сегментом. Я попытался полностью удалить развертывание... но теперь он просит меня зарегистрироваться на https://dat…

databricks aws-databricks

22 ноя '20 в 14:58

0 ответов

Регистрация событий щелчка мыши в блоках данных

Я пытаюсь зафиксировать события щелчка мыши на географической карте в моем кластере данных, но не смог найти способ и пробовал различные библиотеки географических карт, такие как folium, matplotlib, ipyleaflet и т. Д. Я хотел бы знать, поддерживает …

python databricks azure-databricks aws-databricks

25 фев '21 в 14:28